의미론적 보상을 통한 대규모 언어 모델(LLMs)의 캘리브레이션 방법론

대규모 언어 모델(LLMs)이 의료 질의응답 및 법률 추론과 같이 중대한 영향을 미치는 환경에 배치됨에 따라, 모델의 출력이 언제 정확할 가능성이 높은지 추정하는 능력은 안전하고 신뢰할 수 있는 사용을 위해 필수적이며, 이를 위해서는 잘 캘리브레이션된 불확실성(uncertainty)이 필요합니다. 검증 가능한 보상을 사용하는 표준 강화학습(RLVR)은 확신도(confidence)와 무관하게 이진 정답 여부(binary correctness)로 모델을 학습시키는데, 이는 확신에 차 있지만 틀린 예측에 대해 페널티를 부여하지 않아 결과적으로 캘리브레이션(calibration) 성능을 저하시킵니다. 최근 연구들은 모델이 답변과 함께 언어화된 확신도 점수(verbalized confidence scores)를 생성하도록 학습시키고, 정답 여부와의 일치성을 보상함으로써 이 문제를 해결하고자 합니다. 그러나 언어화된 확신도는 토큰 수준(token level)에서 캘리브레이션되므로, 동일한 의미를 가진 텍textual variations(텍스트 변형) 사이에서 일관성이 결여되는 모습을 보입니다.

우리는 언어화된 확신도 인터페이스 없이 의미 공간(semantic space)에서 언어 모델을 직접 캘리브레이션하는 프레임워크인 extbf{의미론적 보상을 통한 캘리브레이션 (Calibration with Semantic Reward, CSR)}을 제안합니다. CSR은 정답인 롤아웃(rollouts) 사이에서는 의미론적 일치(semantic agreement)를 촉진하여 활용(exploitation)을 장려하고, 오답인 롤아웃 사이에서는 가짜 일관성(spurious consistency)을 억제하여 탐색(exploration)을 장려하는 새로운 의미론적 캘리브레이션 보상(semantic calibration reward)을 정답 보상과 결합합니다. HotpotQA(분포 내, in-distribution)와 TriviaQA, MSMARCO, NQ-Open(분포 외, out-of-distribution)에 대해 세 가지 모델 제품군을 대상으로 실험한 결과, CSR은 거의 모든 설정에서 언어화된 확신도 베이스라인보다 일관되게 낮은 ECE와 높은 AUROC를 달성하였으며, 언어화된 확신도 베이스라인 대비 ECE를 최대 $40%$ 감소시키고 AUROC를 최대 $31%$ 향상시켰습니다. 또한 이러한 캘리브레이션 동작은 네 가지 평가 설정 모두에서 강력하게 일반화되었습니다.

Insights

의미론적 보상을 통한 대규모 언어 모델(LLMs)의 캘리브레이션 방법론

요약

핵심 포인트

댓글

AI 에이전트 ROI 사례 연구: 송장 대조(Invoice Reconciliation) 속도 73% 향상

내가 얻지 못한 호환성 주장

AI 테스트 자동화에는 맹목적인 신뢰가 아닌 검토 게이트(Review Gates)가 필요합니다

사례 연구: 실행 모드로서의 루프(Loop) — 제어력을 잃지 않으면서 에이전트가 반복하게 하는 방법

AI 에이전트 ROI 사례 연구: 송장 대조(Invoice Reconciliation) 속도 73% 향상

내가 얻지 못한 호환성 주장

AI 테스트 자동화에는 맹목적인 신뢰가 아닌 검토 게이트(Review Gates)가 필요합니다

사례 연구: 실행 모드로서의 루프(Loop) — 제어력을 잃지 않으면서 에이전트가 반복하게 하는 방법