평가자 교정: 확률 교정(Probability Calibration)이 LLM 에이전트 피드백 루프 내의 선호도 결합(Preference

대규모 언어 모델 (LLM) 에이전트가 평가자 피드백을 통해 자신의 행동을 조정할 때, 체계적인 평가자 편향이 에이전트의 학습된 전략 분포로 전파되는데, 이를 평가자 선호도 결합 (evaluator preference coupling) 현상이라 부릅니다. 기존 연구들은 이러한 결합 현상을 기록하고 이를 측정하기 위한 진단 프레임워크 (EPC)를 구축했으나, 교정 (calibration) 기술이 이 효과를 완화할 수 있는지에 대해서는 조사하지 않았습니다. 본 연구에서는 완화책으로서 평가자 교정에 관한 첫 번째 연구를 제시합니다. 즉, 평가자의 쌍체 비교 판단 (pairwise judgments)에 확률 교정 (probability calibration)을 적용하여 가짜 선호도 전파 (spurious preference propagation)를 줄이는 것입니다. DeepSeek-V4-Pro를 실행기 (executor)로, GLM5.2를 평가자 (evaluator)로 사용하여 표준 이진 TTRL (승/패)과 신뢰도 교정된 TTRL (확률 가중 업데이트)을 비교하는 통제된 피험자 내 실험 (N=5) 결과, 교정이 결합 계수 $\gamma$를 20-49% 감소시키고 젠슨-샤논 발산 (Jensen-Shannon divergence)을 45-67% 감소시킨다는 것을 발견했습니다. 대칭적 LR (symmetric-LR) 대조군을 통해 이 효과가 업데이트 비대칭성 감소로 인한 것이 아님을 확인했습니다. 우리는 교정된 TTRL 프로토콜을 공개하며, 이를 LLM-as-judge 배포 파이프라인을 위한 경량 완화책으로 권장합니다.

Insights

평가자 교정: 확률 교정(Probability Calibration)이 LLM 에이전트 피드백 루프 내의 선호도 결합(Preference

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들