본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 13:29

대규모 언어 모델(LLMs)의 창의성 평가: 테스트, 한계 및 새로운 지평

요약

본 기사는 LLMs의 창의성을 측정하는 기존 인간 기반 테스트들의 타당성과 한계를 체계적으로 분석합니다. 연구진은 창의적 글쓰기, 확산적 사고, 과학적 아이디어 구상 등 세 가지 구성 개념에 걸쳐 여러 테스트를 평가한 결과, 단일 테스트가 모든 영역을 잘 예측하지 못함을 확인했습니다. 이에 따라, 수렴적 사고와 확산적 사고를 모두 측정하는 새로운 도구인 Divergent Remote Association Test (DRAT)를 제안하며, 이것이 과학적 아이디어 구상 능력을 신뢰성 있게 예측할 수 있는 최초의 테스트임을 입증합니다.

핵심 포인트

  • LLMs의 창의성을 평가하기 위해 인간의 기존 테스트를 적용하는 것은 편리하지만, 그 타당성은 아직 확립되지 않았습니다.
  • 창의적 글쓰기나 확산적 사고 같은 특정 구성 개념을 예측하는 데는 DAT와 Conditional DAT가 효과적이지만, 모든 영역에 통용되는 단일 테스트는 없습니다.
  • 기존 어떤 테스트도 과학적 아이디어 구상 능력을 신뢰성 있게 예측하지 못한다는 한계가 발견되었습니다.
  • 새롭게 제안된 DRAT(Divergent Remote Association Test)은 수렴적 사고와 확산적 사고를 모두 평가하며, 과학적 아이디어 구상 능력 예측에 가장 효과적인 최초의 테스트입니다.

대규모 언어 모델(LLMs)의 창의성을 측정하는 것은 창의성을 향상시킬 수 있는 방법을 설계하고, 이 능력에 대한 과학적 이해를 높이는 데 필수적입니다. 이를 달성하기 위해, 최근 몇 년 동안 인간의 창의성 테스트를 LLMs에 적용하는 것이 일반화되었습니다. 이러한 테스트들은 "창의성"을 점수화하는 편리하고 완전히 자동화된 방법을 제공하지만, 기계의 창의성을 측정하는 도구로서의 타당성(validity)은 아직 확립되지 않았으며, 이러한 테스트들은 이미 인간의 창의성을 예측하는 도구로서도 제한적인 타당성을 가지고 있습니다. 이 문제를 해결하기 위해, 우리는 창의적 글쓰기(creative writing), 확산적 사고(divergent thinking), 그리고 과학적 아이디어 구상(scientific ideation)이라는 세 가지 대상 구성 개념(constructs)에 걸쳐 LLMs의 창의적 성취를 예측하는 데 있어 인간 창의성 테스트의 효과성을 평가하는 최초의 대규모 체계적 연구를 수행합니다. 우리는 확산적 연합 과제(Divergent Association Task, DAT)와 조건부 DAT(Conditional DAT)가 각각 창의적 글쓰기와 확산적 사고를 예측하는 데 가장 좋은 예측 도구임을 발견했으나, 테스트의 효과는 구성 개념에 따라 크게 다르며, 모든 구성 개념을 잘 예측하는 단일 테스트는 없다는 것을 확인했습니다. 더욱이, 대중적인 믿음과는 반대로, 기존의 어떤 테스트도 과학적 아이디어 구상 능력을 신뢰성 있게 예측하지 못합니다. 이 문제에 착안하여, 우리는 하나의 도구로 수렴적 사고(convergent thinking)와 확산적 사고를 모두 평가하는 어휘 공간 테스트인 확산적 원격 연합 테스트(Divergent Remote Association Test, DRAT)를 소개합니다. DRAT은 주요 설계 선택 사항 전반에 걸쳐 견고함(robustness)을 입증하며, 과학적 아이디어 구상 능력을 유의미하게 예측하는 LLMs를 위한 최초이자 유일한 창의성 테스트입니다. 또한, DRAT의 성능 향상은 확산적 연합 과제(DAT)와 원격 연합 테스트(Remote Associates Test)의 어떠한 선형 결합(linear combination)으로도 회복할 수 없으며, 이는 과학적 아이디어 구상 능력을 신뢰성 있게 예측하기 위해서는 동일한 테스트 내에서 확산적 사고와 수렴적 사고를 모두 평가하는 것이 필수적임을 나타냅니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0