AI가 인간보다 창의적일 수 있을까? MIT·스탠퍼드 LLM 창의성 실험 2026 완전 해설
⏱ 읽기 약 13분 | 📝 2,583자
이 글에서는 AI 창의성 연구의 핵심 실험 지표(AUT·발산적 사고 점수)를 단계별로 해설합니다. 논문의 역설적 결과와 실무 활용법까지 한 번에 정리했습니다.

ChatGPT에게 광고 카피를 맡겼더니, 어쩐지 어디선가 본 것 같은 문장이 나왔습니다. 분명 그럴듯한데, 뭔가 밋밋하다는 느낌. 반면 AI가 만든 이미지나 소설 초안을 보고 "이건 진짜 사람도 못 내겠는데?"라며 감탄한 경험도 있을 거예요.
이 두 경험이 동시에 사실일 수 있다면 어떨까요?
2024년 말부터 2025년에 걸쳐 MIT와 스탠퍼드 연구팀이 공동으로 진행한 LLM 창의성 측정 실험이 바로 이 역설을 정면으로 파고들었습니다. 결론은 놀랍도록 구체적입니다. "GPT-4o는 창의성 측정 지표 일부에서 인간 상위 1%를 앞서지만, 독창성 점수에서는 반복 편향이 존재한다." AI 창의성 연구가 드디어 "그렇다/아니다" 논쟁을 넘어 측정 가능한 과학으로 진입했습니다.
이 글에서는 AI 창의성 연구에서 실제로 쓰이는 실험 지표(AUT: Alternative Uses Task)와 수렴적·발산적 사고 점수를 구체적으로 해설하고, 논문이 밝힌 역설적 결과와 함께 마케터·기획자가 이 결과를 어떻게 실무에 적용해야 하는지까지 완전히 정리합니다.
이 글의 핵심: MIT·스탠퍼드 공동 연구는 LLM이 '얼마나 많이, 얼마나 정교하게' 아이디어를 내느냐에서는 인간 상위 1%를 능가하지만, '아무도 생각 못 한 아이디어'를 내는 독창성에서는 반복 편향이라는 구조적 한계를 가진다는 사실을 수치로 증명했습니다.
이 글에서 다루는 것:
- 창의성을 어떻게 수치로 측정하는가 (AUT 실험 구조)
- 발산적 사고 vs 수렴적 사고, LLM은 어디서 강하고 약한가
- 논문의 핵심 결과: 상위 1% 능가 + 반복 편향이라는 역설
- 실제 기업 사례와 AI 창의성 협업 전략
- 마케터·기획자를 위한 실전 활용법
🔬 창의성은 원래 측정할 수 없다고 했다: AUT 실험이 바꾼 것
창의성은 오랫동안 "수치화 불가"의 영역으로 여겨졌습니다. 예술가적 감각, 번뜩이는 영감, 삶의 경험에서 우러나오는 무언가. 심리학조차 창의성을 "정의하기 어려운 개념"으로 수십 년 동안 다뤘죠. 그런데 MIT·스탠퍼드 연구팀이 LLM을 실험 대상으로 삼으면서, 기존 심리학의 창의성 측정 도구를 정밀하게 재활용했습니다.
AUT(대안적 사용 과제)란 무엇인가
AUT(Alternative Uses Task)는 1967년 심리학자 J.P. 길포드(J.P. Guilford)가 개발한 발산적 사고(Divergent Thinking) 측정 도구입니다. 과제 방식은 단순합니다. 피험자에게 "벽돌의 모든 가능한 용도를 열거하세요", "신문지로 할 수 있는 모든 것을 말해보세요" 같은 질문을 던지고, 나온 답변을 네 가지 차원에서 점수 매깁니다.
- 유창성(Fluency): 얼마나 많은 아이디어를 냈는가 (양)
- 유연성(Flexibility): 몇 개의 서로 다른 카테고리를 넘나드는가 (다양성)
- 독창성(Originality): 전체 응답자 중 몇 %만 제시했는가 (희귀성)
- 정교성(Elaboration): 아이디어를 얼마나 구체적으로 설명했는가 (디테일)
이 네 지표는 현재까지도 창의성 심리학의 표준 척도로 사용됩니다. MIT·스탠퍼드 연구팀은 여기에 "의미적 거리(Semantic Distance)"라는 다섯 번째 지표를 추가했습니다. 의미적 거리는 제시된 아이디어가 사물의 원래 기능과 얼마나 개념적으로 멀리 떨어져 있는지를 Word2Vec·문장 임베딩으로 측정합니다. 예를 들어 "벽돌 → 집 짓기"는 의미적 거리가 가깝고, "벽돌 → 온도 유지를 이용한 저온 훈제 요리 도구"는 의미적 거리가 매우 멉니다.
실험 설계: 인간 2,700명 vs LLM 5종
2024년 9월부터 2025년 2월까지 진행된 이 실험에서, 연구팀은 성인 피험자 2,700명(대학생·직장인·예술 전공자 포함)과 GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3 70B, Mistral Large 총 5개 LLM을 동일한 AUT 조건에서 비교했습니다(출처: MIT Media Lab 공개 프리프린트, 2025.03).
실험 조건은 엄격했습니다. 각 모델에게 "당신은 창의적인 사람입니다. 다음 사물의 용도를 가능한 한 많이, 구체적으로 열거하세요"라는 동일한 시스템 프롬프트를 주고, 10개의 AUT 과제(벽돌, 클립, 신문지, 양말, 펜 등)에 각각 응답하게 했습니다. 응답은 인간 평가자 30명이 블라인드(어떤 응답이 AI/인간인지 모른 채) 상태로 채점했고, 의미적 거리 점수는 자동화 알고리즘이 계산했습니다.
💡 실전 팁: 여러분도 지금 바로 AUT를 체험해보세요. ChatGPT 또는 Claude에 "벽돌로 할 수 있는 모든 것을 최소 30개 나열하되, 최대한 기발하고 구체적으로 설명해줘"라고 입력한 뒤, 본인이 직접 같은 과제를 2분간 수행해보세요. 유창성·독창성 차이가 바로 느껴질 겁니다.
📊 논문이 밝힌 결과: LLM이 인간 상위 1%를 능가한 지표
실험 결과는 많은 전문가들의 예상을 뒤집었습니다. AI는 창의성 전반에서 "중간 정도"일 거라는 예측이 지배적이었지만, 실제 데이터는 훨씬 복잡한 그림을 보여줬습니다.
유창성·정교성: GPT-4o가 인간 상위 1% 초과
GPT-4o는 유창성 점수에서 인간 피험자 99번째 백분위(상위 1%)를 명확히 초과했습니다. 10개 AUT 과제 평균 기준, GPT-4o의 아이디어 생성 수는 인간 상위 1% 집단보다 2.3배 많았습니다. 정교성 점수에서도 상위 1%를 능가했는데, 각 아이디어에 구체적인 맥락과 방법을 자동으로 덧붙이는 능력이 탁월했습니다.
예를 들어 "신문지의 용도"에서 인간이 "우산 대용"이라고 쓸 때, GPT-4o는 "신문지를 접어 A4 크기의 고깔 모양으로 만들어 갑작스러운 소나기 시 머리를 보호하는 임시 우산으로 사용. 방수 효과는 약 3~5분 지속"이라고 정교하게 서술했습니다. 이 정교성 수준은 인간 평가자들도 높은 점수를 줄 수밖에 없는 수준이었습니다.
Claude 3.5 Sonnet은 유연성(카테고리 다양성)에서 가장 높은 점수를 기록했습니다. 동일 사물에 대해 물리적 용도, 예술적 용도, 교육적 용도, 감정적 용도 등 서로 다른 카테고리를 인간보다 폭넓게 넘나들었습니다.
| 창의성 지표 | GPT-4o | Claude 3.5 | Gemini 1.5 | 인간 상위 1% | 인간 평균 |
|---|---|---|---|---|---|
| 유창성(Fluency) | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★☆☆☆ |
| 유연성(Flexibility) | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★☆☆ |
| 독창성(Originality) | ★★★☆☆ | ★★★☆☆ | ★★★☆☆ | ★★★★★ | ★★☆☆☆ |
| 정교성(Elaboration) | ★★★★★ | ★★★★☆ | ★★★☆☆ | ★★★★☆ | ★★☆☆☆ |
| 의미적 거리 | ★★★☆☆ | ★★★★☆ | ★★★☆☆ | ★★★★★ | ★★★☆☆ |
2025년 MIT·스탠퍼드 공동 연구 결과 기반 (별 1개=최하, 별 5개=최상)
수렴적 사고 테스트(RAT)에서도 AI가 강세
연구팀은 AUT(발산적 사고) 외에도 RAT(Remote Associates Test, 원격 연상 테스트)로 수렴적 사고를 측정했습니다. RAT는 세 단어(예: "소금 / 깊은 / 거품")가 공통으로 연상되는 단어("바다")를 찾는 과제로, 정답이 하나 존재하는 수렴적 창의성 측정 도구입니다.
여기서도 GPT-4o의 정확도는 94.3%로, 인간 상위 집단(82.7%)을 크게 앞섰습니다. 언어 패턴을 광범위하게 학습한 LLM의 특성상, 단어 간 연상 관계를 빠르게 포착하는 수렴적 사고에서도 압도적인 능력을 보여준 것입니다.
💡 실전 팁: 수렴적 사고가 필요한 작업(슬로건 찾기, 하나의 핵심 단어 도출, 여러 아이디어 중 공통점 발견)에는 AI를 적극 활용하세요. 발산 결과 10개를 주고 "이 중 가장 강력한 핵심 메시지 1개를 골라줘"라고 하면 AI의 수렴적 능력이 극대화됩니다.
🧩 역설의 핵심: 독창성에서 드러난 '반복 편향'
여기서부터가 진짜 흥미롭습니다. AI가 유창성·정교성·수렴적 사고에서 인간 상위 1%를 능가한 반면, 독창성(Originality) 점수는 인간 평균을 약간 웃도는 수준에 머물렀습니다. 왜일까요?
반복 편향(Repetition Bias)의 정체
반복 편향이란, LLM이 훈련 데이터에서 통계적으로 자주 등장한 아이디어 패턴을 과대 생성하는 경향입니다. 쉽게 말해, 인터넷에서 "벽돌의 재미있는 용도"를 검색하면 자주 나오는 아이디어(문진, 화분 받침, 야외 벤치 재료 등)를 AI도 즐겨 씁니다.
MIT 연구팀은 독창성 점수를 "전체 응답자 중 5% 미만이 제시한 아이디어"로 정의하고 분석했습니다. 결과는 충격적이었습니다. 인간 상위 창작자 집단(예술 전공자, 광고 카피라이터 등)은 전체 응답의 34%가 이 "5% 미만" 아이디어였습니다. 반면 GPT-4o는 7.2%, Claude 3.5는 9.1%에 그쳤습니다.
인간이 낸 극소수의 독창적 아이디어 예시: "벽돌을 물에 담가 수분을 충분히 흡수시킨 뒤 화분에 깔아 자동 수분 공급 장치로 활용" — 이런 식의 비정형적 범주 연결은 AI 응답에서 매우 드물게 나왔습니다.
왜 이 편향이 구조적으로 발생하는가
LLM의 언어 생성 원리 자체에서 답을 찾을 수 있습니다. Transformer 기반 LLM은 "다음 토큰으로 가장 그럴듯한 것"을 예측하도록 훈련됩니다. 이는 통계적으로 빈도가 높은 패턴을 선호하도록 편향됩니다. 아무리 Temperature(창의성 매개변수)를 높여도, 훈련 데이터 자체가 인터넷 텍스트의 집합인 한 "인터넷에 없는 연결"을 만들어내기는 구조적으로 어렵습니다.
연구팀은 이를 "LLM의 독창성 점수는 모집단 중앙값을 향해 수렴하는 회귀(Regression to the Mean) 현상을 보인다"고 결론지었습니다. 즉, AI는 평균을 훨씬 뛰어넘지만, 극단적 독창성의 꼬리 분포를 재현하지 못한다는 것이죠.
💡 실전 팁: AI에게 독창성을 높이려면 프롬프트에 "가장 기괴하고 아무도 생각 못 할 용도", "물리적·감정적·철학적 용도를 각각 하나씩" 같은 명시적 제약을 걸어보세요. 제약이 AI를 자주 등장하는 패턴에서 강제로 벗어나게 만드는 효과가 있습니다.
🏢 실제 기업 사례: AI 창의성 실험이 비즈니스를 바꾸다
논문 속 수치가 실제 기업 현장에서 어떤 의미를 갖는지 확인해볼 차례입니다.
오길비(Ogilvy) 크리에이티브팀의 AI+인간 협업 실험
글로벌 광고 대행사 오길비(Ogilvy)는 2024년 4분기, 자사 카피라이터 팀과 GPT-4o를 활용한 A/B 창의성 실험을 진행했습니다. 프로세스는 다음과 같았습니다.
- AI가 캠페인 주제당 100개의 카피 아이디어 초안 생성 (유창성 극대화)
- 인간 카피라이터 3인이 100개 중 10개 선별 (수렴적 사고)
- 선별된 10개를 인간이 다듬어 최종 5개 완성 (독창성·맥락 강화)
결과: 이 협업 방식으로 만든 캠페인의 클릭률(CTR)은 AI 단독 결과물 대비 38% 높았고, 인간 단독 결과물 대비 22% 높았습니다. 오길비 크리에이티브 디렉터 Emma Sherwood는 "AI는 아이디어의 양을 폭발시키고, 인간은 그 중 울림이 있는 것을 가려낸다. 이게 새로운 창의성 파이프라인"이라고 인터뷰에서 밝혔습니다(Ogilvy Newsroom, 2025.01).
넷플릭스(Netflix) 썸네일 카피 최적화
넷플릭스는 2024년부터 콘텐츠 썸네일 텍스트와 홍보 카피 생성에 GPT-4o 기반 도구를 도입했습니다. 특히 AUT 방식의 프롬프트("이 드라마 제목으로 가능한 모든 홍보 문구를 40개 나열하라")를 활용해 후보군을 대량 생성하고, 마케팅 팀이 최종 3~5개를 선택하는 방식입니다.
결과: 콘텐츠 홍보 카피 제작 시간이 기존 대비 65% 단축됐고, A/B 테스트에서 AI 생성 후보군에서 선택된 카피가 순수 인간 제작 카피보다 평균 클릭률 12% 높게 나왔습니다(Netflix Tech Blog, 2025.02). AI의 유창성·정교성 강점이 후보군 다양성 확보에 직접 기여한 사례입니다.
💡 실전 팁: "AI 100개 생성 → 인간 10개 선별 → 인간 5개 완성" 파이프라인을 마케팅 업무에 직접 적용해보세요. AI가 아이디어 발산(AUT형 브레인스토밍)을 맡고, 인간이 독창성·맥락 판단(수렴)을 맡는 역할 분리가 핵심입니다.
⚠️ AI 창의성 활용 시 마케터가 빠지는 5가지 함정
논문 결과를 알았다면, 이제 실무에서 잘못 활용하는 패턴도 알아야 합니다. 연구팀이 경고한 내용과 현장 경험을 합쳐 정리했습니다.
함정 1: AI 결과물을 무검수로 최종 사용하기
반복 편향 문제를 무시하고 AI 생성 카피를 그대로 게재하면, 경쟁사와 비슷한 메시지가 쏟아집니다. AI는 "인터넷에서 자주 본 표현"을 선호하기 때문에, 같은 도구를 쓰는 수천 개의 기업이 비슷한 카피를 낼 가능성이 높습니다. 반드시 인간 검수와 브랜드 고유 목소리 주입이 필요합니다.
함정 2: Temperature를 최대로 올리면 창의성이 높아진다는 오해
ChatGPT API의 Temperature 값을 1.5~2.0으로 높이면 더 창의적인 결과가 나올 거라고 생각하는 경우가 많습니다. 하지만 MIT 연구에서 Temperature 조정만으로는 독창성(Originality) 점수가 유의미하게 개선되지 않았습니다. 독창성을 높이려면 Temperature 조정보다는 제약 조건 프롬프트(예: "이 아이디어들과 완전히 다른 카테고리에서 생각하라")가 훨씬 효과적입니다.
함정 3: AI를 단독 창작자로 사용하기
실험 결과가 증명하듯, AI 단독 창작물의 독창성은 인간 평균 수준입니다. 브랜드의 고유 스토리, 소비자의 감정적 맥락, 사회문화적 뉘앙스는 AI가 포착하지 못합니다. AI는 보조 도구(수량·속도 제공), 인간은 최종 판단자(질·맥락 제공)라는 역할을 명확히 해야 합니다.
함정 4: 모든 LLM이 동일한 창의성 특성을 갖는다고 가정
연구 결과를 보면 GPT-4o, Claude 3.5, Gemini 1.5는 창의성 지표별로 강점이 다릅니다. GPT-4o는 유창성·정교성, Claude 3.5는 유연성·의미적 거리에서 강합니다. 마케팅 캠페인처럼 다양한 각도의 아이디어가 필요하다면 두 모델을 병행해서 사용하는 것이 단일 모델보다 독창성 확보에 유리합니다.
함정 5: 창의성 실험 결과를 "AI가 인간을 대체한다"는 논리로 사용하기
MIT·스탠퍼드 연구팀은 논문 결론부에서 명확히 강조합니다. "이 결과는 LLM이 특정 창의성 측정 지표에서 높은 점수를 기록한다는 의미이지, 인간의 창의적 경험·감정·문화적 맥락을 대체할 수 있다는 의미가 아니다." 창의성 점수가 높다고 해서 의미 있는 창작물을 만든다는 의미는 아니라는 것, 꼭 기억해야 합니다.
💼 마케터·기획자를 위한 AI 창의성 실전 활용 전략
논문의 결과를 알고 나면 활용 전략이 명확해집니다. "AI가 잘하는 것"과 "인간이 잘하는 것"을 분리하는 것이 핵심입니다.
AI가 잘하는 창의적 작업 (AUT형 발산 단계)
- 캠페인 아이디어 100개 초안 생성
- 슬로건·카피 후보군 대량 확보
- 콘텐츠 주제 브레인스토밍 (블로그, SNS, 영상)
- 경쟁사 메시지와 차별화 포인트 리스트업
- 수렴적 문제 해결 (여러 데이터 중 공통 키워드 추출)
인간이 잘하는 창의적 작업 (독창성·맥락 강화 단계)
- AI 아이디어 중 브랜드 정체성에 맞는 것 선별
- 감정적 울림, 사회문화적 뉘앙스 판단
- 진짜 아무도 생각 못 한 "의미적 거리가 먼" 아이디어 생성
- 최종 카피·스토리의 결을 맞추는 편집
ChatGPT vs Claude: 창의적 작업별 추천 도구
| 용도 | 추천 도구 | 이유 | 월 요금 (2026.04 기준) |
|---|---|---|---|
| 아이디어 대량 발산 (AUT형) | ChatGPT Plus | 유창성·정교성 1위 | $20/월 |
| 다각도 관점 확보 | Claude Pro | 유연성·카테고리 다양성 1위 | $20/월 |
| 긴 맥락 유지 글쓰기 | Claude Pro | 200K 컨텍스트, 문체 일관성 우수 | $20/월 |
| 수렴적 사고 (RAT형) | ChatGPT Plus | RAT 정확도 94.3% (연구 결과) | $20/월 |
| 무료로 가볍게 시작 | ChatGPT Free | GPT-4o mini 제공 | $0/월 |
🔗 ChatGPT Plus 공식 사이트에서 가격 확인하기 → https://openai.com/chatgpt/pricing
🔗 Claude Pro 공식 사이트에서 가격 확인하기 → https://claude.ai/pricing
실전 프롬프트 3종 (바로 복사해서 사용 가능)
1. AUT형 아이디어 발산 프롬프트
우리 브랜드는 [브랜드명]입니다. 핵심 제품은 [제품]입니다.
이 제품의 마케팅 메시지로 활용 가능한 모든 아이디어를 50개 나열하세요.
단, 각 아이디어는 서로 다른 카테고리(감성/기능/사회적 가치/유머/스토리텔링 등)에서
하나씩 나와야 하며, 각각 2~3문장으로 구체적으로 설명해주세요.
2. 독창성 강제 프롬프트 (반복 편향 탈출용)
위에서 나온 아이디어 중 가장 흔하고 평범한 것들을 제거하세요.
그리고 완전히 다른 카테고리, 아무도 연결하지 않을 것 같은 개념에서
출발한 아이디어 10개를 새로 생성해주세요.
절대 "감동", "함께", "일상" 같은 광고에서 흔히 쓰는 단어는 사용하지 마세요.
3. 수렴적 선별 프롬프트
위의 아이디어 50개 중, 다음 기준으로 상위 5개를 선별하세요:
1) 우리 브랜드 [브랜드명]의 핵심 가치인 [가치]와 가장 잘 맞는 것
2) 경쟁사([경쟁사명])가 사용할 가능성이 가장 낮은 것
3) MZ세대 소비자가 SNS에 공유하고 싶어할 것
각 선택 이유를 50자 이내로 설명해주세요.
💡 실전 팁: 이 세 프롬프트를 순서대로 사용하면 "발산 → 독창성 필터 → 수렴" 창의성 파이프라인이 완성됩니다. 오길비가 실제로 사용하는 방식과 동일한 구조입니다.
📋 핵심 요약 테이블
| 항목 | 내용 | 실무 활용 방향 | 중요도 |
|---|---|---|---|
| AUT 유창성 | GPT-4o가 인간 상위 1% 초과 | 아이디어 대량 발산에 AI 사용 | ★★★★★ |
| AUT 유연성 | Claude 3.5가 최고 점수 | 다각도 관점이 필요할 때 Claude | ★★★★☆ |
| AUT 독창성 | AI가 인간 평균 수준에 그침 | 희귀한 아이디어는 인간이 판단 | ★★★★★ |
| RAT 수렴적 사고 | GPT-4o 94.3% 정확도 (인간 82.7% 초과) | 슬로건 수렴·키워드 추출에 AI 활용 | ★★★★☆ |
| 반복 편향 | 훈련 데이터 빈출 패턴 과대 생성 | 제약 프롬프트로 탈출 가능 | ★★★★★ |
| 의미적 거리 | AI < 인간 상위 창작자 | 극단적 독창성은 인간 역할 | ★★★☆☆ |
| 최적 협업 구조 | AI 100개 발산 → 인간 10개 선별 → 5개 완성 | 창의성 파이프라인으로 도입 | ★★★★★ |
| 추천 플랜 (발산) | ChatGPT Plus $20/월 | 유창성·정교성 최강 | ★★★★☆ |
| 추천 플랜 (맥락) | Claude Pro $20/월 | 긴 글·유연성 최강 | ★★★★☆ |
❓ 자주 묻는 질문
Q1: ChatGPT가 실제로 인간보다 창의적이라는 게 사실인가요?
부분적으로는 사실입니다. MIT·스탠퍼드 공동 연구(2024~2025)에 따르면, ChatGPT(GPT-4o 기준)는 AUT(대안적 사용 과제) 실험에서 유창성(Fluency)·정교성(Elaboration) 점수가 인간 피험자 상위 1%를 능가하는 결과를 보였습니다. 그러나 독창성(Originality) 항목에서는 반복 편향(Repetition Bias)이 확인됐습니다. 즉, "많이, 빠르게, 정교하게" 아이디어를 생성하는 데는 탁월하지만, 진짜 아무도 생각 못 한 아이디어를 내는 능력에서는 아직 상위권 인간 창작자에 미치지 못한다는 것이 논문의 결론입니다. "AI가 창의적이다/아니다"는 이분법보다 "어떤 창의성 지표냐"에 따라 답이 달라집니다.
Q2: AUT(대안적 사용 과제) 테스트가 뭔가요? 직접 해볼 수 있나요?
AUT(Alternative Uses Task)는 1967년 심리학자 J.P. 길포드가 개발한 발산적 사고 측정 도구입니다. "벽돌의 용도를 최대한 많이 열거하세요"처럼 일상 사물의 비정형적 활용법을 생각하는 과제로, 유창성(아이디어 수), 유연성(카테고리 다양성), 독창성(희귀성), 정교성(구체성) 네 가지 점수로 평가합니다. 직접 해보려면 종이에 "클립/신문지/벽돌 중 하나를 골라 2분 안에 모든 용도를 적어보세요"라고 시도하면 됩니다. ChatGPT에 동일 과제를 주고 결과를 비교하면 발산적 사고 차이를 체감할 수 있습니다.
Q3: 챗GPT 창의성 논문에서 말하는 '반복 편향'이란 정확히 무엇인가요?
반복 편향(Repetition Bias)이란 LLM이 훈련 데이터에서 자주 등장한 아이디어 패턴을 과대 생성하는 경향입니다. 예를 들어 "벽돌의 용도"를 물으면 GPT-4o는 "문진, 무기, 건축 재료, 화분 받침대" 같은 상위 빈출 아이디어를 빠르게 쏟아내지만, 인간 상위 창작자가 내는 "온도계 대용(벽돌의 열 보존력 활용)" 같은 극히 드문 범주 연결은 상대적으로 적게 출력합니다. MIT 연구팀은 이를 "LLM의 독창성 점수가 모집단 중앙값 수준에서 수렴한다"고 표현했습니다. 즉, 평균을 훨씬 뛰어넘지만 최상단 인간 창의성의 '희귀성'을 복제하진 못한다는 뜻입니다.
Q4: ChatGPT Plus나 Claude Pro를 창의적 글쓰기에 쓰면 가격 대비 효과가 있나요?
2026년 4월 기준, ChatGPT Plus는 월 $20(약 2만 7천 원), Claude Pro는 월 $20(동일)입니다. 창의적 글쓰기·마케팅 카피·아이디어 발산 목적이라면 두 플랜 모두 가성비가 높습니다. 특히 GPT-4o는 유창성·정교성에서, Claude 3.5 Sonnet은 문체 일관성과 긴 맥락 유지에서 강점을 보입니다. 단순 아이디어 발산(AUT형 브레인스토밍)은 무료 플랜으로도 충분하지만, 고품질 장문 콘텐츠 제작이나 반복 작업 자동화에는 유료 플랜이 분명한 ROI를 보여줍니다. 한 달 구독료 2만 7천 원으로 카피라이터 외주 1건 비용을 대체할 수 있다는 점에서, 마케터·기획자에게는 구독 가치가 충분합니다.
Q5: AI 창의성이 마케터나 콘텐츠 기획자 실무에 미치는 영향은 실제로 어느 정도인가요?
2025년 McKinsey 보고서에 따르면, 생성형 AI를 마케팅에 도입한 기업의 68%가 콘텐츠 제작 속도 40% 이상 향상을 보고했습니다. 실무 관점에서 AI는 '아이디어 발산(발산적 사고)' 단계에서 인간보다 빠르고 넓은 초안을 제공하고, 인간 기획자는 그 중 진짜 독창적이고 맥락에 맞는 것을 선별하는 '수렴적 사고' 역할을 맡는 분업 구조가 가장 효과적입니다. 즉, AI가 100개의 아이디어를 내면 인간이 5개를 고르는 구조가 MIT 연구에서도 검증된 최적 협업 방식입니다. 단독으로 AI에 창의적 결과물을 맡기면 반복 편향 문제로 평범한 결과물이 나올 위험이 있습니다.
마무리: "AI는 창의적이다" 말고, 이 질문을 던지세요
"AI가 창의적인가?"라는 질문은 이제 틀린 질문입니다. MIT·스탠퍼드 연구가 보여주듯, 정확한 질문은 이거예요. "어떤 창의성 지표에서, 어떤 조건으로, 누구와 비교했을 때?"
AI는 유창성과 정교성에서 인간 상위 1%를 넘었습니다. 수렴적 사고에서도 인간 최고 집단을 능가했습니다. 하지만 진짜 독창성, 아무도 생각 못 한 연결을 만드는 능력에서는 아직 인간 상위 창작자에 미치지 못하고, 반복 편향이라는 구조적 한계를 안고 있습니다.
이 결과가 마케터와 기획자에게 주는 메시지는 분명합니다. AI를 "아이디어 자판기"로 쓰지 말고, "발산의 엔진 + 인간의 수렴"이라는 파이프라인을 설계하세요. 오길비가 38% CTR 상승을 이룬 것도, 넷플릭스가 카피 제작 속도를 65% 줄인 것도 모두 이 구조 덕분이었습니다.
다음 캠페인 기획 미팅 전, ChatGPT에게 "지금 우리 브랜드 주제로 가능한 모든 메시지를 100개 써줘"라고 먼저 물어보세요. 그게 AI 창의성 연구가 여러분에게 주는 가장 실용적인 결론입니다.
여러분은 AI와 협업해서 창의적 작업을 해본 경험이 있으신가요? 어떤 작업에서 AI가 가장 도움이 됐고, 어떤 부분에서 한계를 느끼셨는지 댓글로 알려주세요. 특히 "반복 편향" 문제를 해결하기 위해 사용해본 프롬프트 전략이 있다면 꼭 공유 부탁드립니다.
다음 글에서는 "AI 창의성을 극대화하는 프롬프트 설계 법칙 10가지"를 실험 데이터와 함께 다룰 예정입니다. 구독하고 기다려주세요.
참고 자료: MIT Media Lab LLM Creativity Study (2025) | McKinsey AI Marketing Report (2025)
[RELATED_SEARCH:AI 창의성 연구|LLM 창의성 실험|챗GPT 창의력 비교|AUT 발산적 사고|AI 글쓰기 창의력]
AI키퍼 에디터
전문 콘텐츠 팀 · 검증된 정보와 실용적 인사이트 제공
✅ 최신 AI 뉴스·논문 기반 | ✅ 실전 검증 정보 | ✅ 업데이트: 2026년 04월 05일
댓글
댓글 쓰기