QUIET: LLM의 창의적 생성 능력을 위한 다중 빈칸 연쇄형 스토리 클로즈(Story Cloze) 벤치마크
요약
LLM의 창의적 생성 능력을 객관적으로 평가하기 위한 새로운 벤치마크 QUIET를 제안합니다. 기존의 객관식 방식에서 벗어나 다중 빈칸과 내용 제약 조건을 활용하며, 정보 이론 기반의 자동 점수 산정 프로토콜을 통해 창의성과 논리적 충족도를 동시에 측정합니다.
핵심 포인트
- 기존 객관식 벤치마크의 판별 능력 한계 극복
- 다중 빈칸과 연쇄적 의존 관계를 통한 생성 능력 측정
- 정보 이론 기반의 '보정된 놀라움' 자동 점수 산정 방식 도입
- 내용 제약 조건 충족과 창의적 놀라움의 균형 평가
대규모 언어 모델(LLMs)은 창의적 능력 평가에서 이중적인 과제에 직면해 있습니다. 기존의 벤치마크(예: Story Cloze Test, HellaSwag)는 창의적 생성 능력을 직접 측정하기보다는 객관식 인식 패러다임을 사용하여 서사적 연속성에 대한 모델의 판별 능력(discriminative ability)을 측정합니다. 또한, 루브릭(rubric) 기반 점수 산정 및 LLM-as-Judge 방식은 주관적인 차원 평가나 자연어 모델 출력에 의존하며, 객관적이고 자동화된 점수 산정 메커니즘을 제공할 수 없습니다. 본 논문은 다중 빈칸 연쇄형 스토리 클로즈(multi-blank cascaded story cloze)를 기반으로 LLM의 창의적 능력을 진단하는 벤치마크인 QUIET(Quality Understanding via Interlocked Evaluation Testing)를 제안합니다. QUIET는 완전한 구조를 가진 이야기 내에 N개의 빈칸(10-20개)을 설정하며, 각 빈칸에는 명시적인 내용 제약 조건(content constraint)이 수반됩니다. 또한 빈칸 사이에는 연쇄적 의존 관계(cascade dependency relationships)가 존재하여, 앞선 빈칸에 채워진 내용이 이후 빈칸의 가능한 해답 공간(feasible solution space)을 제한합니다. 평가 대상 모델(또는 인간 참가자)은 개방형 생성(open-ended generation) 모드로 모든 빈칸을 채우며, 결과는 인간의 채점 없이 정보 이론적(information-theoretic) 자동 점수 산정 프로토콜에 의해 점수가 매겨집니다. 이 점수 산정 프로토콜은 "보정된 놀라움(calibrated surprise)" 이론적 프레임워크(Zou & Xu, 2026a)를 직접적으로 실행합니다. 각 빈칸 k에 대해 다음과 같은 합성 점수가 계산됩니다: score = satisfy * (1 + lambda * surprise), 여기서 lambda = 1.0입니다. 여기서 "satisfy"는 빈칸 채우기가 내용 제약 조건을 얼마나 잘 충족하는지를 측정하며(주관적인 미적 점수가 아닌 객관적인 논리적 추론 판단), "surprise"는 제약 조건이 충족되었다는 가정하에 놀라움의 정도를 측정합니다. 제약 조건을 충족하지 못하는 창의적인 답변은 0점을 받으며, 제약 조건은 충족하지만 평범한 답변은 낮은 점수를 받고, 제약 조건을 충족하면서 놀라움을 주는 답변은 높은 점수를 받습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기