arXiv논문2026. 06. 26. 10:42

판단하지 말고 질문하라: 해석 가능한 LLM 평가 및 자기 개선을 위한 이진 질문 (Ask, Don't Judge: Binary

요약

LLM 출력을 원자적 이진 질문으로 분해하여 해석 가능한 다차원 점수를 생성하는 BINEVAL 프레임워크를 제안합니다. 기존 LLM 심사위원의 불투명성을 해결하고, 사실적 일관성 등 다양한 벤치마크에서 뛰어난 성능과 진단 가치를 입증했습니다.

핵심 포인트

평가 기준을 세밀한 이진 질문으로 분해하여 투명한 피드백 제공
UniEval, G-Eval 등 기존 베이스라인 대비 우수한 성능 입증
인간의 판단과 높은 상관관계를 보이며 천장 효과 방지
반복적인 프롬프트 최적화 및 자기 개선(Self-update) 지원

LLM(Large Language Model) 출력을 평가하는 것은 NLP(Natural Language Processing) 분야에서 여전히 주요한 병목 현상으로 남아 있습니다. 인간 평가는 비용이 많이 들고 느리며, 어휘적 지표(lexical metrics)는 개방형 생성(open-ended generation)에 대한 인간의 판단과 상관관계가 낮고, 통합적인 LLM 심사위원(LLM judges)은 종종 디버깅하기 어려운 불투명한 점수를 생성합니다. 우리는 평가 기준을 원자적 이진 질문(atomic binary questions)으로 분해하고, 그 결과로 나온 판결을 해석 가능한 다차원 점수로 집계하는 프레임워크인 BINEVAL을 제안합니다. 작업 프롬프트(task prompt)가 주어지면, 메타 프롬프트(meta-prompt)가 세밀한 평가 질문을 생성하고, LLM은 각 출력에 대해 질문에 독립적으로 답변하여 보정된 전체 점수와 함께 투명한 질문 수준의 피드백을 제공합니다. 이러한 분해 방식은 평가를 검사하기 쉽게 만들고, 진단하기 쉽게 하며, 프롬프트 개선에 직접적으로 사용할 수 있게 합니다. SummEval, Topical-Chat, QAGS 전반에 걸쳐 BINEVAL은 UniEval 및 G-Eval을 포함한 강력한 베이스라인(baselines)과 대등하거나 이를 능가하는 성능을 보였으며, 특히 QAGS와 같은 사실적 일관성(factual consistency) 벤치마크에서 강력한 결과를 나타냈습니다. 인간의 판단과 경쟁력 있는 상관관계를 보이는 것을 넘어, BINEVAL은 인간의 점수 분포와 더 잘 일치하며 기존 LLM 심사위원들에게 흔히 나타나는 천장 효과(ceiling effects)를 방지하여, 경계선에 있는 출력과 명백히 결함이 있는 출력 사이의 변별력을 높입니다. 우리는 더 나아가 동일한 질문 수준의 피드백이 반복적인 프롬프트 최적화(iterative prompt optimization)를 지원함을 보여주며, 자기 업데이트(self-update) 및 교차 모델 업데이트(cross-model update) 설정 모두에서 요약(summarization)에 대한 평가자 프롬프트와 IFBench의 생성(generation) 프롬프트를 개선합니다. 종합적으로, BINEVAL은 강력한 실증적 성능과 실질적인 진단 및 최적화 가치를 결합한, 작업 불가지론적(task-agnostic)이고 훈련이 필요 없는(training-free) 해석 가능한 평가 프레임워크를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

판단하지 말고 질문하라: 해석 가능한 LLM 평가 및 자기 개선을 위한 이진 질문 (Ask, Don't Judge: Binary

요약

핵심 포인트

댓글