
【논문으로 읽기】 AI의 창의성은 어디까지 성장할까? 그리고 소설가·각본가의 '창조성'은 상실될 것인가
요약
AI의 창의성을 Margaret Boden의 3가지 분류(조합형, 탐색형, 변혁형)를 통해 분석하고, 최신 연구 결과를 바탕으로 AI가 인간의 창의성 중 어느 단계에 도달했는지 고찰합니다.
핵심 포인트
- AI는 조합형 및 탐색형 창의성에서 인간의 평균을 상회함
- 규칙 자체를 바꾸는 변혁형 창의성은 아직 AI의 한계 영역임
- LLM은 평균적 창의성은 높으나 초창의적 인간의 상한선에는 미치지 못함
- 방치 시 전체적인 창의적 다양성이 감소할 리스크가 존재함
「AI에게 소설을 쓰게 하다 보면, 언젠가 인간 소설가나 각본가는 필요 없어질까?」
「애초에 AI의 '창의성(Creativity)'은 어디까지 성장할까?」
엔지니어로서 생성 AI (Generative AI)를 다루다 보면, 누구나 한 번쯤은 이 질문에 부딪힙니다. 본 기사에서는 단순한 감상이나 분위기가 아니라, 심사 논문(Peer-reviewed paper)이나 대규모 실험을 근거로 이 두 가지 질문에 마주해 보겠습니다.
먼저 결론에 가까운 내용을 말씀드리자면 다음과 같습니다.
- AI는 창조성의 「하한선」을 끌어올리고, 「평균」을 밀어 올린다. 이는 이미 실험을 통해 확인되었습니다.
- 하지만 창조성의 **「상한선(=초창의적인 인간)」**과 **「전체의 다양성」**은 아직 AI에게 넘겨주지 않았습니다.
- 다만 방치할 경우 「전체의 다양성이 메마를」 리스크는 실재합니다. 이는 설계(=엔지니어의 업무)를 통해 방지할 수 있습니다.
코드에 잘하는 것과 못하는 것이 있듯이, AI의 창의성에도 명확한 장단점이 있습니다. 차례대로 살펴보겠습니다.
갑자기 "AI는 창의적인가?"라고 물으면 이야기가 공중전(실체가 없는 논쟁)이 됩니다. 그래서 먼저, 인지과학자 Margaret Boden에 의한 유명한 「창의성의 3가지 분류」로 용어를 통일하겠습니다. Boden은 창의성을 **「새롭고, 의외이며, 가치 있는 아이디어를 낳는 것」**이라고 정의한 뒤, 이를 세 가지 유형으로 나누었습니다 (Boden, 2004 / 2010).
| 종류 | 대략적인 설명 | 엔지니어적인 비유 | AI의 숙련도 |
|---|---|---|---|
| 조합형 (Combinational) | 기존의 요소를 아직 존재하지 않는 조합으로 연결함 | 라이브러리를 의외의 형태로 조합하여 새로운 기능을 만듦 | ◎ 매우 빠름 |
| 탐색형 (Exploratory) | 어떤 규칙·양식(=개념 공간)의 "내부"를 탐색하여 새로운 수를 찾아냄 | 기존 프레임워크의 관례 범위 내에서 새로운 설계 패턴을 찾아냄 | ○~△ |
| 변혁형 (Transformational) | 규칙·개념 공간 "그 자체"를 바꾸어, 지금까지 생각할 수 없었던 것을 가능하게 함 | 프레임워크의 전제를 뒤집어 새로운 패러다임을 발명함 | ✕ (아직 미숙함) |
핵심은 이 세 가지가 「조합 → 탐색 → 변혁」의 순서로 어려워지는 스펙트럼이라는 점입니다.
대략적으로 말하자면, 현재의 LLM(대규모 언어 모델)은 「조합」은 인간보다 빠르고 넓게 수행하며, 「탐색」은 정중한 프롬프트(Prompt)가 있다면 어느 정도 해내지만, 「규칙의 재구성(변혁)」은 아직 어렵다는 평가가 일반적입니다.
어느 해설에서는 "AI는 세 가지 중 두 가지(조합·탐색)는 재현할 수 있지만, '정말로 새로운 것'을 만들라고 하면 무너진다"라고 표현하기도 합니다. 변혁형이야말로 AI에게 마지막 보루인 셈입니다.
여기서부터가 본론입니다. 「AI의 창의성은 어디까지인가」를 최근의 대규모 연구를 통해 구체적으로 살펴보겠습니다.
창의성의 대표적인 테스트에는 확산적 사고 (Divergent thinking) 계열이 있습니다. 예를 들어 "가능한 한 관련성이 적은 단어들을 나열하라"고 요구하는 **Divergent Association Task (DAT)**나, "벽돌의 용도를 나열하라"는 Alternative Uses Task (AUT) 등이 있습니다.
- **Bellemare-Pépin, Lespinasse 외 (Scientific Reports, 2026)**는 약 10만 명의 인간 데이터와 LLM을 비교했습니다. 결론은 명쾌합니다. LLM은 DAT에서 "평균적인 인간"을 상회하며 창작 능력에서도 육박하지만, "매우 창의적인 인간"에는 도달하지 못한다는 것입니다. 즉, 천장(Ceiling)이 남아 있습니다.
- **Wang 외 (Nature Human Behaviour, 2026)**는 인간 9,198명 vs LLM 21만 건 이상의 규모로 비교했습니다. 결과는 세 가지입니다.
- 평균에서는 인간이 약간 앞선다.
- 분포의 "오른쪽 끝" (초창의적 계층)에서 인간이 압도적으로 강하다.
- LLM에게 "천재가 되어라", "다른 속성을 가진 인물로서 답하라"고 지시하면 특정 임계치까지는 올라가지만, 이를 넘어서면 현실과는 반대 방향의 출력이 나온다. 프롬프트 개선의 효과는 천차만별이거나 오히려 악화되기도 한다.
이 지점에서, 두 개의 독립된 연구가 **「평균은 넘었다 / 하지만 톱 클래스는 아직이다」**라는 점으로 일치하고 있다는 사실은 은근히 중요합니다 (재현성이 있다는 의미입니다).
- **13개의 창작 태스크(3개 도메인)로 LLM을 종합 벤치마킹한 연구(Thinking Skills and Creativity, 2025)**에 따르면, 최상위 모델(Claude, GPT-4)은 인간에 대해 대체로 52퍼센타일 부근(=중앙값보다 약간 위), LLM 전체로는 46퍼센타일 부근을 기록했습니다. - 세부 내용을 살펴보면 흥미로운데, 확산적 사고(divergent thinking)나 문제 해결은 뛰어나지만, 반대로 크리에이티브 라이팅(creative writing, 이야기 쓰기)은 서툽니다. - 또한, 하나의 LLM에 10번 질문하면 그 "집단적 창의성"은 인간 8~10명분에 해당한다는 지적도 있습니다. 양으로 밀어붙이면 의외로 무시할 수 없다는 이야기입니다.
이를 Boden의 3가지 분류에 대입하면 깔끔하게 이해됩니다.
| Boden의 분류 | AI의 현재 위치 (논문 기반) |
|---|---|
| 조합형 | 속도와 양에서 인간을 능가. 확산적 사고 테스트에서 평균 초과. |
| ... |
엔지니어의 뒷이야기: temperature와 「천재 프롬프트」
"창의성 파라미터"를 높이면(=temperature를 높이면) 독창성은 올라가지만, 어느 임계값을 넘으면 출력이 파탄 나서 의미불명이 됩니다 (Wang 외, 2026). 또한 "셰익스피어가 된 것처럼"와 같은 천재 페르소나 지시는 상한선까지는 효과가 있어도 그 이후에는 오히려 역효과가 나기 쉽습니다. "더 창의적으로"라는 요구는 파라미터로도, 프롬프트로도 단조롭게 적용해서는 효과를 볼 수 없다는 뜻입니다.
이 부분이 본 기사에서 가장 흥미로운 지점이며, 두 번째 질문인 **"타인의 크리에이티비티는 상실되지 않는가?"**에 대한 직접적인 답이 됩니다.
**Doshi & Hauser (Science Advances, 2024)**는 약 300명에게 단편 소설을 쓰게 하는 실험을 진행했습니다. 그룹은 세 가지로 나뉩니다.
- AI 없음
- ChatGPT로부터 3문장의 시작 아이디어를 1개 받음
- 최대 5개의 AI 아이디어 중 선택 가능
결과는 다음과 같습니다.
- AI의 아이디어를 사용하면 작품은 "더 창의적이고, 더 능숙하며, 더 재미있다"라고 평가되었습니다. 게다가 원래 창의성이 낮은 필자일수록 혜택이 컸습니다 (=하한선의 상승).
- 하지만 AI의 지원을 받은 작품들끼리는 서로 닮아 있었습니다. 인간만으로 쓴 작품군보다 다양성이 낮았습니다. - 즉, 개인은 이득을 보지만, 전체적으로는 신규성의 폭이 좁아집니다. 저자는 이를 **"사회적 딜레마(social dilemma)\
이론이나 실험실의 이야기뿐만 아니라, 현실의 업계가 어떻게 움직였는지도 살펴봅시다. 상징적인 것이 바로 2023년 미국 작가 조합(WGA)의 파업(148일간)입니다. AI는 주요 쟁점 중 하나였습니다. 타결된 합의(MOA)에는 대략 다음과 같은 내용이 포함되었습니다.
AI는 '작가(writer)'로 간주하지 않는다. AI가 만들어낸 문장은 'literary material(각본 소재)'이 아니다. - 작가에게
AI 사용을 강요할 수 없다. - 스튜디오가 AI 생성물을 전달할 경우에는
공시 의무가 있다. - AI 생성물을 사용하더라도 그것을 근거로
크레딧이나 보수를 줄일 수 없다. - 단,
'기존 각본을 AI 학습에 사용해도 되는가'는 보류(미결착).
여기서 읽어낼 수 있는 방향성은, **'인간을 AI로 대체하는 것(replacement)'이 아니라 'AI를 도구로 인정하면서, 규칙을 통해 인간의 몫과 존엄을 지키는 것'**이라는 타협점입니다. 출판·소설 세계에서도 작가 단체들이 유사한 논점(학습 데이터·투명성)으로 움직이고 있습니다.
연구 측의 언어로 말하자면, 논의의 중심은 **'AI vs 인간'에서 '인간 × AI의 공창성(co-creativity)'**으로 옮겨가고 있다는 것입니다. AI는 '라이벌'이라기보다 '브레인스토밍 상대(wall-hitting partner)'로서 개인의 창의성을 끌어올리는 방식으로 사용되는 것이 현실적입니다.
여기까지를 바탕으로 하면, AI가 당분간 서툴 것이며 인간에게 남을 영역이 명확해집니다.
변혁적 창의성(Transformational creativity): 규칙이나 전제 '그 자체'를 바꾸는 힘. 여러 대규모 비교 연구에서 일치하게 나타난 '분포의 오른쪽 끝(초창의적 계층)'은 아직 AI에게 추월당하지 않았습니다. -
생생한 경험과 신체성(lived experience / embodiment): AI는 과거 데이터의 재조합이 본질입니다. '아직 아무도 본 적 없는 것을 현실 세계와 연관 지어 바라보는 것'――이는 에이다 러브레이스(Ada Lovelace) 이래로 반복되어 온 논점이며, Boden 또한 진정으로 변혁적인 아이디어는 '개념 공간 그 자체의 재작성'을 필요로 한다고 논합니다. -
'살아있는 느낌(sense of life)'과 큐레이션: 단순히 잘 만든 무개성한 출력물(slop)과 기억에 남는 작품을 가르는 것. 마지막에 '이것이다'라고 선택하는 것은 현재로서는 인간의 역할입니다.
바꿔 말하면, AI는 창조의 **'하한선'과 '평균'**을 담당합니다. 인간에게 남는 것은 '상한선', '다양성', '의미 부여' ――즉, '왜 그것을 만드는가'의 부분입니다.
지금까지 소설가·각본가의 이야기를 해왔지만, 눈치 빠른 분들은 이미 깨달았을 것입니다. 이 구도는 그대로 엔지니어 자신에게도 적용됩니다.
'코드를 짜는 것은 작업이며, 그 부분은 AI가 대체하고 있다. 그러므로 앞으로의 엔지니어에게 중요한 것은 상상력과 사고력이다'――이 견해는 큰 틀에서 맞습니다. 다만, 그대로 받아들이면 다소 거칠 수 있으므로, 논문을 바탕으로 '두 가지 주석'을 덧붙입니다.
AI 코딩 지원이 효과가 있는 것은 사실이며, 게다가 '경험이 적은 사람일수록 효과가 크다'는 구도가 제3장의 창의성 연구(Doshi & Hauser)와 완전히 같은 형태로 나타납니다.
GitHub Copilot의 대조 실험(Peng 외, 2023): 이용 그룹은 태스크를 약 56% 빠르게 완료했습니다. 경험이 적은 사람이나 업무 부하가 높은 사람일수록 혜택이 컸습니다. -
MIT·프린스턴·펜실베이니아 대학교 경제학자 등에 의한 약 4,800명 규모의 필드 실험(2024): 태스크 완료가 평균 +26%. 내역을 보면 주니어는 **+2140%**인 반면, 시니어는 **+716%**였습니다. 코드 품질의 저하는 관찰되지 않았습니다.
즉, '정형적인 코드를 작성하는' 부분의 '하한선'은 AI가 확실히 끌어올리고 있습니다. 여기까지는 견해대로입니다.
고전적인 에세이인 **Peter Naur의 「Programming as Theory Building」(1985)**은 프로그래밍의 본질을 **'코드라는 결과물이 아니라
이러한 관점에서 보면, 코드를 작성하는 행위 그 자체가 요구사항을 발견하고, 에지 케이스(edge case)를 인지하며, 이해를 구축해 나가는 “사고(thinking)”이기도 하다. 따라서 AI가 자동화하고 있는 것은 **「사양이 명확하고 정형화된 부분」**이며, 「쓰면서 생각하는」 부분까지 통째로 사라지는 것은 아니다. 「사고가 코드를 대체한다」가 아니라, **「코드 중 “그리 깊게 생각하지 않는 부분”이 자동화되고, 생각해야 하는 부분은 오히려 남거나 늘어난다」**가 실태에 가깝다.
그렇다면 어떤 가치가 올라가는가. 「상상력·사고력」이 정답이지만, 현장의 언어로 번역하면 조금 더 구체적이 된다.
| 상대적으로 가치가 올라가는 스킬 | 내용 | 왜 AI 시대에 유효한가 |
|---|---|---|
| 문제 설정 (무엇을 만들 것인가) | 모호한 요구사항을 「풀어야 할 문제」로 번역하기 | AI는 “답”은 내놓지만 “질문”은 던지지 않는다 |
| 설계·아키텍처 (Architecture) | 개념 공간 그 자체를 설계하기 | Boden의 탐색형/변혁형(Exploratory/Transformational) = AI가 가장 어려워하는 영역 |
| 판단·검증 (Judge) | AI 출력의 정확성을 평가하고, 오류를 인지하며, 디버깅하기 | AI가 틀리는 경계(jagged frontier)를 꿰뚫어 보는 힘. 이 부분이 사실 가장 크게 성장한다 |
| 센스·의미 부여 | 무엇이 “좋은지”를 결정하고, 「왜 만드는가」에 답하기 | 모드 붕괴(mode collapse/slop)와 양작(良作)을 가르는 최후의 보루 |
포인트는, “예술적인 영감”뿐만 아니라 「문제를 제기하는 힘·설계하는 힘·AI를 의심하고 검증하는 힘”이 핵심이라는 것이다. 특히 코드를 “쓰는” 것보다 “읽고·고치고·정확성을 판단하는” 것이 유효한 시대가 될 것이다.
그리고 아이러니하게도, 「사고력이 중요하다」는 것은 AI를 사용할수록 생각을 덜 해도 되기 때문이기도 하다.
Lee 외 (Microsoft / 카네기멜론 대, CHI 2025 · 319명 조사): 생성형 AI(GenAI) 이용으로 비판적 사고의 내용이 **「검증·통합·태스크 관리」로 시프트(shift)**된다. 그리고 AI에 대한 신뢰가 높을수록 비판적 사고는 줄어들고, 자신의 능력에 대한 자신감이 높을수록 비판적 사고는 늘어난다. 방치하면 “생각하는 힘”이 위축되는(cognitive offloading) 리스크가 있다. -
Xu 외 (틸버그 대, 2025): Copilot 도입 후 생산성은 올라가지만 주로 경험이 적은 사람이 견인한다. 반면 AI 생성 코드는 수정 작업이 늘어나며, 그 부담이 숙련(core) 개발자에게 편중된다 —— 리뷰량 +6.5%, 자신의 코드 생산성 −19%. 「생산성 향상이 소수의 숙련자에게 지워지는 유지보수 부담을 가릴」 가능성.
엔지니어적인 결론
- AI는 「코드를 작성하는」 것의 하한선을 끌어올린다 (특히 주니어). 제3장의 소설가 이야기와 같은 구도이다. -
- 하지만 가치의 중심은 **「무엇을·왜 만드는가(문제 설정)」「어떻게 구성하는가(설계)」「정말로 올바른가(검증·디버깅)」**로 이동한다. -
- 「상상력·사고력이 중요하다」는 말은 옳다. 다만 그 내용은 문제를 정의하고·설계하고·AI의 답을 의심하며 검증하는 힘이다. 그리고 그것들은 의식적으로 계속 사용하지 않으면 퇴화한다.
따라서 질문에 대한 답은 —— 「맞다. 다만 해상도를 높이면, “상상력·사고력”의 정체는 『문제를 정의하고, 설계하며, AI의 답을 의심하고 검증하는 힘』이며, AI를 사용할수록 둔해지기 쉬우므로 의식적으로 계속 단련하는 자세가 차이를 만든다」 ——는 것이 현시점의 연구가 보여주는 모습이다.
논문에서 뽑아낸 「내일부터 유효한」 관점을 정리한다.
브레인스토밍(벽치기)에는 효과적이다: 개인(특히 경험이 적은 사람)의 창의성을 끌어올리는 데 AI를 통한 아이디어 도출은 실제로 효과가 있다 (Doshi & Hauser, 2024). -
Temperature는 단조롭지 않다: 너무 높이면 파탄이 나는 임계값이 존재한다 (Wang 외, 2026). 창의성 태스크는 “적절한 온도”를 찾는 과정이 필요하다. -
천재 페르소나는 만능이 아니다: 「○○가 되어줘」 방식은 임계치를 넘으면 역효과를 낼 수 있다. -
다양성은 설계로 지킨다: 복수의 페르소나·복수의 관점으로 샘플링하고, 평가 축에 「독창성」을 넣는다 (Wan & Kalman, 2026 / Jo & Raghavan, 2026). -
최종 판단은 인간에게 남긴다: 질의 균질화(mode collapse)를 피하는 최후의 보루는 인간의 큐레이션이다.
- AI의 창의성은
「조합(Combination)」에서는 인간을 초월하지만, 「탐색(Exploration)」은 적당한 수준이며, 「변혁(Transformation)」은 아직 미숙함. - 대규모 비교 결과는
**「평균은 넘어섰으나 / 하지만 초창의적인 인간은 아직 따라잡지 못했다」**는 점으로 일치함. - 가장 큰 리스크는 “실업” 그 자체보다
**「전체적인 다양성이 줄어드는 것(균질화)」**임. 단, 이는 설계와 인센티브(Incentive)를 통해 방지 가능함. - 업계(WGA 등)는
**「대체」가 아닌 「공동 창조(Co-creation) + 규칙 정비」**의 방향으로 나아가고 있음. - 결국 AI는 창조의
하한선과 평균을 담당하고, 인간에게는 상한선·다양성·의미 부여가 남음. - 엔지니어 자신도 같은 구도: 코드를 작성하는 “작업”의 하한선은 AI가 끌어올림. 가치는 문제 설정·설계·판단/검증으로 이동하며, 상상력과 사고력은――의식적으로 계속 단련한다면――무기가 됨 (단, 사용하지 않으면 퇴화함).
소설가나 각본가의 창의성은 “AI에게 빼앗긴다”기보다, “어떻게 함께 사용하고, 어떻게 다양성을 지키는 설계를 할 것인가”에 달려 있다――는 것이 현시점에서 논문들이 가리키고 있는 답인 듯합니다.
- Doshi, A. R., & Hauser, O. P. (2024).
Generative AI enhances individual creativity but reduces the collective diversity of novel content. Science Advances, 10(28). https://www.science.org/doi/10.1126/sciadv.adn5290 - Bellemare-Pépin, A., Lespinasse, F., et al. (2026).
Divergent Creativity in Humans and Large Language Models. Scientific Reports. (프리프린트: https://arxiv.org/abs/2405.13012 ) - Wang, et al. (2026).
A large-scale comparison of divergent creativity in humans and large language models. Nature Human Behaviour. https://www.nature.com/articles/s41562-025-02331-1 - Large language models show both individual and collective creativity comparable to humans. (2025). Thinking Skills and Creativity. https://www.sciencedirect.com/science/article/pii/S1871187125001191
- Wan, Y., & Kalman, Y. M. (2026, forthcoming).
Diverse AI Personas Can Mitigate the Homogenization Effect in Human-AI Collaborative Ideation. Computers in Human Behavior: Artificial Humans. https://arxiv.org/abs/2504.13868 - Jo, N., & Raghavan, M. (2026).
Incentives shape how humans co-create with generative AI. MIT. https://arxiv.org/abs/2604.03529 - Boden, M. A. (2004).
The Creative Mind: Myths and Mechanisms.
/ Boden, M. A. (2010).
Creativity and Art: Three Roads to Surprise. Oxford University Press. - Writers Guild of America (2023).
2023 MBA / 계약서(생성형 AI 조항). 해설: The Authors Guild https://authorsguild.org/news/wga-agreement-introduces-key-protections-for-tv-and-film-writers-against-ai/ / Brookings https://www.brookings.edu/articles/hollywood-writers-went-on-strike-to-protect-their-livelihoods-from-generative-ai-their-remarkable-victory-matters-for-all-workers/ - Lee, H.-P., Sarkar, A., Tankelevitch, L., et al. (2025).
생성형 AI가 비판적 사고에 미치는 영향: 지식 근로자를 대상으로 한 설문조사에서 보고된 인지 노력 및 자신감 효과의 감소. CHI '25 (Microsoft Research / Carnegie Mellon University). https://www.microsoft.com/en-us/research/publication/the-impact-of-generative-ai-on-critical-thinking-self-reported-reductions-in-cognitive-effort-and-confidence-effects-from-a-survey-of-knowledge-workers/ - Peng, S., et al. (2023).
AI가 개발자 생산성에 미치는 영향: GitHub Copilot의 증거. https://arxiv.org/abs/2302.06590 - Cui, Z., Demirer, M., et al. (2024).
생성형 AI가 고숙련 업무에 미치는 영향: 소프트웨어 개발자를 대상으로 한 현장 실험의 증거. (MIT・Princeton・UPenn, 약 4,800명) https://mit-genai.pubpub.org/pub/v5iixksv - Xu, F., Medappa, P. K., et al. (2025).
AI 지원 프로그래밍이 유지보수 부담을 증가시켜 숙련 개발자의 생산성을 감소시킬 수 있다. (Tilburg University) https://arxiv.org/abs/2510.10165 - Naur, P. (1985).
프로그래밍은 이론 구축으로서의 프로그래밍. (프로그래밍의 본질은 결과물이 아니라 '이론의 구축'이라는 고전적 논고)
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기