AGC-Bench: 인공 일반 창의성 측정

창의성 연구에서는 창의성이 특정 영역에 국한되는지(예: 시각, 글쓰기, 과학), 그리고 심리 측정학적으로 일반 지능(general intelligence)과 분리 가능한지에 대해 논쟁해 왔습니다. 두 질문 모두 이제 LLM(Large Language Models)에도 적용되지만, AI 창의성에 대한 통합된 벤치마크는 여전히 찾아보기 어렵습니다. 우리는 AI 창의성 문헌에 대한 체계적인 검토(3,101개의 논문 검토, 497개의 벤치마크 식별)를 바탕으로 구축된 인공 일반 창의성 벤치마크인 AGC-Bench를 소개합니다. 이와 함께 개별적인 코드베이스를 HELM 표준화된 벤치마크로 변환하는 에이전트 기반 하네스(agentic harness)를 결합했습니다. 첫 번째 릴리스는 브레인스토밍, 문제 해결, STEM, 서사, 비유적 언어 및 유머를 아우르는 78개의 데이터셋을 포함합니다. LLM-as-judge(판사로서의 LLM)의 편향 문제를 해결하기 위해, 우리는 판사의 관대함/엄격함을 심리 측정학적으로 보정하는 Judge Response Theory를 적용합니다. 그런 다음 세 가지 프런티어(frontier) LLM의 편향이 교정된 평점을 바탕으로 Qwen3-30B를 미세 조정(fine-tuning)하여, 학습하지 않은 새로운 창의성 벤치마크를 견고하게 채점할 수 있는 오픈 웨이트(open-weight) 모델인 AGC-Judge를 생성합니다. 결과에 따르면 프런티어 모델들이 AGC-Bench 리더보드 상단을 차지하고 있으며, 오픈 모델들이 그 뒤를 바짝 쫓고 있습니다. LLM은 서로 다른 창의적 강점을 보여주며, 일부 영역(예: 글쓰기)에서는 다른 영역(예: 과학적 아이디어 구상)보다 더 높은 순위를 기록합니다. 광범위한 실험을 통해 세 가지 주요 발견을 도출했습니다. 첫째, 83개의 LLM에 대해 요인 분석(factor analysis)을 적용한 결과, 일반 지능의 'g' 요인과 유사하며 일반 지식/추론과 관련이 있으면서도 분리 가능한 단일 창의성 요인 'c'를 회복하였으며, 이는 분산의 81.5%를 설명합니다. 둘째, 모델에게 "창의적이 되어라"라고 프롬프팅하는 것이 추론을 활성화하는 것보다 성능을 훨씬 더 크게 향상시킨다는 것을 보여주었으며, 이는 이 벤치마크가 일반 능력이 아닌 창의성을 추적한다는 증거입니다. 셋째, 인간과 매칭된 하위 집합에서, 최상위 인간이 창의성 측면에서 여전히 최상위 LLM보다 앞서 있음을 발견했습니다. 우리는 대규모 AI 창의성 측정을 위한 공개 인프라로서 공개 리더보드, AGC-Judge, 그리고 인간 데이터를 포함한 AGC-Bench를 출시합니다.

Insights

AGC-Bench: 인공 일반 창의성 측정

요약

핵심 포인트

댓글

시장가의 3.6배. 위메이드 창업자 지분 39.33%에 중국계 자본이 쳐준 값이다. 종가 1만9330원짜리 주식을 주당 6만8910원, 총

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!

AI 시대이기 때문에 더욱 사양과 설계가 필요하다고 생각한다

시장가의 3.6배. 위메이드 창업자 지분 39.33%에 중국계 자본이 쳐준 값이다. 종가 1만9330원짜리 주식을 주당 6만8910원, 총

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!

AI 시대이기 때문에 더욱 사양과 설계가 필요하다고 생각한다