평가자 교정: 확률 교정(Probability Calibration)이 LLM 에이전트 피드백 루프 내의 선호도 결합(Preference
요약
LLM 에이전트가 평가자 피드백을 통해 학습할 때 발생하는 '평가자 선호도 결합' 현상을 완화하기 위한 확률 교정(Probability Calibration) 연구를 소개합니다. 평가자의 판단에 확률 교정을 적용함으로써 가짜 선호도 전파를 줄이고 학습의 정확도를 높일 수 있음을 실험으로 증명했습니다.
핵심 포인트
- 평가자 편향이 에이전트의 전략 분포로 전파되는 현상 규명
- 확률 교정을 통해 결합 계수 및 젠슨-샤논 발산 대폭 감소
- DeepSeek-V4-Pro와 GLM5.2를 활용한 실험적 검증 완료
- LLM-as-judge 파이프라인을 위한 경량 완화책 제안
대규모 언어 모델 (LLM) 에이전트가 평가자 피드백을 통해 자신의 행동을 조정할 때, 체계적인 평가자 편향이 에이전트의 학습된 전략 분포로 전파되는데, 이를 평가자 선호도 결합 (evaluator preference coupling) 현상이라 부릅니다. 기존 연구들은 이러한 결합 현상을 기록하고 이를 측정하기 위한 진단 프레임워크 (EPC)를 구축했으나, 교정 (calibration) 기술이 이 효과를 완화할 수 있는지에 대해서는 조사하지 않았습니다. 본 연구에서는 완화책으로서 평가자 교정에 관한 첫 번째 연구를 제시합니다. 즉, 평가자의 쌍체 비교 판단 (pairwise judgments)에 확률 교정 (probability calibration)을 적용하여 가짜 선호도 전파 (spurious preference propagation)를 줄이는 것입니다. DeepSeek-V4-Pro를 실행기 (executor)로, GLM5.2를 평가자 (evaluator)로 사용하여 표준 이진 TTRL (승/패)과 신뢰도 교정된 TTRL (확률 가중 업데이트)을 비교하는 통제된 피험자 내 실험 (N=5) 결과, 교정이 결합 계수 $\gamma$를 20-49% 감소시키고 젠슨-샤논 발산 (Jensen-Shannon divergence)을 45-67% 감소시킨다는 것을 발견했습니다. 대칭적 LR (symmetric-LR) 대조군을 통해 이 효과가 업데이트 비대칭성 감소로 인한 것이 아님을 확인했습니다. 우리는 교정된 TTRL 프로토콜을 공개하며, 이를 LLM-as-judge 배포 파이프라인을 위한 경량 완화책으로 권장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기