arXiv논문2026. 06. 04. 13:15

자기 평가(Self-Evaluation)는 이미 존재한다: 최소한의 데이터로 Base LLM에서 잠재적 판사 보정(Latent Judge

요약

Base LLM이 별도의 학습 없이도 외부 판사의 평가 점수를 예측할 수 있는 잠재적 능력이 있음을 발견했습니다. 연구팀은 이를 끌어내기 위한 '자기 평가 유도(SEE)' 기법을 제안하여, 최소한의 데이터로도 모델의 평가 예측 성능을 크게 향상시켰습니다.

핵심 포인트

Base LLM은 이미 외부 판사의 점수를 예측하는 능력을 보유함
SEE 기법은 적은 데이터로도 판사 예측 성능을 높임
자기 평가는 습득이 아닌 잠재 능력의 유도 문제임
학습하지 않은 판사에 대해서도 안정적인 성능을 보임

대규모 언어 모델(Large language models)이 점점 더 다른 모델들에 의해 평가됨에 따라, 자연스러운 질문이 제기됩니다: 모델이 판사(judge)가 자신의 출력물에 어떻게 점수를 매길지 예측할 수 있을까요? 우리는 이러한 능력이 특정 목표 학습(targeted training) 이전에도 이미 상당 부분 존재한다는 것을 발견했습니다. 프롬프트 기반의 퓨샷(few-shot) 방식만으로도, 베이스 모델(base model)은 세 가지 벤치마크 전반에서 개방형 응답에 대한 외부 판사의 다중 속성 품질 점수(multi-attribute quality scores)를 우연(chance)보다 훨씬 높은 수준으로 이미 예측합니다.

우리는 자기 평가 유도(Self-Evaluation Elicitation, SEE)를 소개합니다. 이는 답변을 개선하고 판사를 예측하는 보정 결합 강화학습(calibration-coupled reinforcement learning) 단계와, 답변은 그대로 유지하면서 예측을 날카롭게 다듬는 마스크 증류(masked distillation) 단계로 구성된 짧은 사이클을 통해 이러한 잠재적 능력을 표면화하는 방법입니다. 강화학습 베이스라인보다 약 31배 적은 160개의 고유한 예시만으로, SEE는 답변 품질을 유지하면서 세 가지 벤치마크 전반에서 홀드아웃 보정(held-out calibration) 성능을 향상시킵니다.

유도된 자기 평가(self-evaluation)는 모델 자체의 토큰 분포 내에 날카롭게 국한되어 있으며, 학습 과정에서 접해보지 않은 판사들에 대해서도 안정적입니다. 이는 특정 판사의 선호도가 아닌, 전이 가능한 품질(transferable notion of quality)의 개념임을 나타냅니다. 이러한 결과는 판사 정렬(judge-aligned) 자기 평가를 습득(acquisition)의 문제가 아닌 유도(elicitation)의 문제로 재정의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

자기 평가(Self-Evaluation)는 이미 존재한다: 최소한의 데이터로 Base LLM에서 잠재적 판사 보정(Latent Judge

요약

핵심 포인트

댓글