AGC-Bench: 인공 일반 창의성 측정
요약
AI의 창의성을 통합적으로 측정하기 위한 새로운 벤치마크인 AGC-Bench를 소개합니다. 78개의 데이터셋과 편향이 교정된 AGC-Judge 모델을 통해 LLM의 창의적 능력을 정밀하게 평가하며, 일반 지능과 분리된 창의성 요인을 입증했습니다.
핵심 포인트
- AI 창의성 측정을 위한 통합 벤치마크 AGC-Bench 공개
- Judge Response Theory를 적용하여 LLM 판사의 편향성 해결
- 창의성 전용 채점 모델인 AGC-Judge(Qwen3-30B 기반) 개발
- 일반 지능과 분리된 단일 창의성 요인 'c'의 존재 확인
- 최상위 LLM이 특정 영역에서 뛰어나지만 최상위 인간에는 미치지 못함
창의성 연구에서는 창의성이 특정 영역에 국한되는지(예: 시각, 글쓰기, 과학), 그리고 심리 측정학적으로 일반 지능(general intelligence)과 분리 가능한지에 대해 논쟁해 왔습니다. 두 질문 모두 이제 LLM(Large Language Models)에도 적용되지만, AI 창의성에 대한 통합된 벤치마크는 여전히 찾아보기 어렵습니다. 우리는 AI 창의성 문헌에 대한 체계적인 검토(3,101개의 논문 검토, 497개의 벤치마크 식별)를 바탕으로 구축된 인공 일반 창의성 벤치마크인 AGC-Bench를 소개합니다. 이와 함께 개별적인 코드베이스를 HELM 표준화된 벤치마크로 변환하는 에이전트 기반 하네스(agentic harness)를 결합했습니다. 첫 번째 릴리스는 브레인스토밍, 문제 해결, STEM, 서사, 비유적 언어 및 유머를 아우르는 78개의 데이터셋을 포함합니다. LLM-as-judge(판사로서의 LLM)의 편향 문제를 해결하기 위해, 우리는 판사의 관대함/엄격함을 심리 측정학적으로 보정하는 Judge Response Theory를 적용합니다. 그런 다음 세 가지 프런티어(frontier) LLM의 편향이 교정된 평점을 바탕으로 Qwen3-30B를 미세 조정(fine-tuning)하여, 학습하지 않은 새로운 창의성 벤치마크를 견고하게 채점할 수 있는 오픈 웨이트(open-weight) 모델인 AGC-Judge를 생성합니다. 결과에 따르면 프런티어 모델들이 AGC-Bench 리더보드 상단을 차지하고 있으며, 오픈 모델들이 그 뒤를 바짝 쫓고 있습니다. LLM은 서로 다른 창의적 강점을 보여주며, 일부 영역(예: 글쓰기)에서는 다른 영역(예: 과학적 아이디어 구상)보다 더 높은 순위를 기록합니다. 광범위한 실험을 통해 세 가지 주요 발견을 도출했습니다. 첫째, 83개의 LLM에 대해 요인 분석(factor analysis)을 적용한 결과, 일반 지능의 'g' 요인과 유사하며 일반 지식/추론과 관련이 있으면서도 분리 가능한 단일 창의성 요인 'c'를 회복하였으며, 이는 분산의 81.5%를 설명합니다. 둘째, 모델에게 "창의적이 되어라"라고 프롬프팅하는 것이 추론을 활성화하는 것보다 성능을 훨씬 더 크게 향상시킨다는 것을 보여주었으며, 이는 이 벤치마크가 일반 능력이 아닌 창의성을 추적한다는 증거입니다. 셋째, 인간과 매칭된 하위 집합에서, 최상위 인간이 창의성 측면에서 여전히 최상위 LLM보다 앞서 있음을 발견했습니다. 우리는 대규모 AI 창의성 측정을 위한 공개 인프라로서 공개 리더보드, AGC-Judge, 그리고 인간 데이터를 포함한 AGC-Bench를 출시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기