arXiv논문2026. 06. 15. 08:20

개방형 작업 전반에 걸친 언어 모델의 자동화된 창의성 평가

요약

LLM의 창의성을 다양한 작업에 걸쳐 정량화할 수 있는 도메인 불가지론적 자동화 프레임워크를 제안합니다. 의미론적 엔트로피와 멀티 에이전트 판사 프레임워크를 통해 참신성, 다양성, 작업 완수 능력을 체계적으로 평가합니다.

핵심 포인트

도메인에 구애받지 않는 확장 가능한 창의성 평가 프레임워크 제안
의미론적 엔트로피를 활용한 참조 없는 확산적 창의성 측정
멀티 에이전트 판사 프레임워크를 통한 수렴적 창의성 평가 효율성 60% 향상
문제 해결, 아이디어 구상, 글쓰기 등 다양한 도메인에서의 검증 완료

대규모 언어 모델 (LLMs)은 언어 이해, 추론 및 생성 분야에서 놀라운 발전을 이루었으며, 이는 모델의 창의적 잠재력에 대한 점점 커지는 관심을 불러일으켰습니다. 이러한 잠재력을 실현하기 위해서는 다양한 작업에 걸쳐 창의성을 평가할 수 있는 체계적이고 확장 가능한 방법이 필요합니다. 그러나 기존의 대부분의 창의성 지표는 특정 작업에 밀접하게 결합되어 있어, 평가 과정에 도메인 가정이 포함되어 있으며 확장성과 일반성을 제한합니다. 이러한 격차를 해소하기 위해, 우리는 개방형 작업(open-ended tasks) 전반에서 LLM의 창의성을 정량화하기 위한 자동화된 도메인 불가지론적 (domain-agnostic) 프레임워크를 소개합니다. 우리의 접근 방식은 측정 장치를 창의적 작업 자체와 분리하여, 확장 가능하고 작업 불가지론적인 평가를 가능하게 합니다. 확산적 창의성 (Divergent creativity)은 참조가 필요 없는 (reference-free) 견고한 참신성 및 다양성 지표인 의미론적 엔트로피 (semantic entropy)를 사용하여 측정되며, 이는 인간의 주석, LLM 기반 참신성 판단 및 기본 다양성 측정값에 대해 검증되었습니다. 수렴적 창의성 (Convergent creativity)은 효율성을 60% 이상 향상시키면서 작업 완수(task fulfilment)에 대한 문맥 민감적 평가를 제공하는 새로운 검색 기반 멀티 에이전트 판사 (multi-agent judge) 프레임워크를 통해 평가됩니다. 우리는 광범위한 LLM 제품군을 사용하여 질적으로 구별되는 세 가지 도메인인 문제 해결 (MacGyver), 연구 아이디어 구상 (HypoGen), 그리고 창의적 글쓰기 (BookMIA)에서 우리의 프레임워크를 검증합니다. 실증적 결과는 우리의 프레임워크가 참신성, 다양성, 작업 완수를 포함한 창의성의 핵심 측면을 신뢰성 있게 포착하며, 모델의 크기, 온도 (temperature), 최신성 (recency), 추론 (reasoning)과 같은 모델 특성이 창의적 성능에 어떻게 영향을 미치는지 보여줍니다. 우리의 연구는 자동화된 LLM 창의성 평가를 위한 재현 가능하고 일반화 가능한 표준을 구축하여, 확장 가능한 벤치마킹을 위한 길을 열고 창의적 AI의 발전을 가속화합니다.

AI 자동 생성 콘텐츠

원문 바로가기

개방형 작업 전반에 걸친 언어 모델의 자동화된 창의성 평가

요약

핵심 포인트

댓글