본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 18. 20:03

의미론적 보상을 통한 대규모 언어 모델(LLMs)의 캘리브레이션 방법론

요약

LLMs의 신뢰성을 높이기 위해 모델의 확신도와 실제 정답 여부를 일치시키는 캘리브레이션 기술인 CSR(Calibration with Semantic Reward)을 제안합니다. 기존의 언어화된 확신도 방식이 텍스트 변형에 따라 일관성이 떨어지는 문제를 해결하기 위해, 의미 공간(semantic space)에서 직접 의미론적 일치성을 보상하는 방식을 사용합니다. 실험 결과, CSR은 다양한 데이터셋에서 기존 방식보다 낮은 ECE와 높은 AUROC를 기록하며 뛰어난 일반화 성능을 입증했습니다.

핵심 포인트

  • 기존 RLVR 방식은 이진 정답 여부에만 집중하여 확신도가 높은 오답에 대한 페널티가 부족해 캘리브레이션 성능이 저하됨
  • 언어화된 확신도(verbalized confidence) 방식은 토큰 수준의 변형에 따라 일관성이 결여되는 한계가 있음
  • CSR 프레임워크는 의미론적 일치(semantic agreement)를 촉진하고 가짜 일관성(spurious consistency)을 억제하는 보상 체계를 도입함
  • 실험을 통해 ECE를 최대 40% 감소시키고 AUROC를 최대 31% 향상시키는 성능 개선을 확인함

대규모 언어 모델(LLMs)이 의료 질의응답 및 법률 추론과 같이 중대한 영향을 미치는 환경에 배치됨에 따라, 모델의 출력이 언제 정확할 가능성이 높은지 추정하는 능력은 안전하고 신뢰할 수 있는 사용을 위해 필수적이며, 이를 위해서는 잘 캘리브레이션된 불확실성(uncertainty)이 필요합니다. 검증 가능한 보상을 사용하는 표준 강화학습(RLVR)은 확신도(confidence)와 무관하게 이진 정답 여부(binary correctness)로 모델을 학습시키는데, 이는 확신에 차 있지만 틀린 예측에 대해 페널티를 부여하지 않아 결과적으로 캘리브레이션(calibration) 성능을 저하시킵니다. 최근 연구들은 모델이 답변과 함께 언어화된 확신도 점수(verbalized confidence scores)를 생성하도록 학습시키고, 정답 여부와의 일치성을 보상함으로써 이 문제를 해결하고자 합니다. 그러나 언어화된 확신도는 토큰 수준(token level)에서 캘리브레이션되므로, 동일한 의미를 가진 텍textual variations(텍스트 변형) 사이에서 일관성이 결여되는 모습을 보입니다.

우리는 언어화된 확신도 인터페이스 없이 의미 공간(semantic space)에서 언어 모델을 직접 캘리브레이션하는 프레임워크인 extbf{의미론적 보상을 통한 캘리브레이션 (Calibration with Semantic Reward, CSR)}을 제안합니다. CSR은 정답인 롤아웃(rollouts) 사이에서는 의미론적 일치(semantic agreement)를 촉진하여 활용(exploitation)을 장려하고, 오답인 롤아웃 사이에서는 가짜 일관성(spurious consistency)을 억제하여 탐색(exploration)을 장려하는 새로운 의미론적 캘리브레이션 보상(semantic calibration reward)을 정답 보상과 결합합니다. HotpotQA(분포 내, in-distribution)와 TriviaQA, MSMARCO, NQ-Open(분포 외, out-of-distribution)에 대해 세 가지 모델 제품군을 대상으로 실험한 결과, CSR은 거의 모든 설정에서 언어화된 확신도 베이스라인보다 일관되게 낮은 ECE와 높은 AUROC를 달성하였으며, 언어화된 확신도 베이스라인 대비 ECE를 최대 $40%$ 감소시키고 AUROC를 최대 $31%$ 향상시켰습니다. 또한 이러한 캘리브레이션 동작은 네 가지 평가 설정 모두에서 강력하게 일반화되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0