arXiv논문2026. 06. 24. 11:52

CALIBER: 언어 모델의 추론 전후 신뢰도 교정 (Calibrating Confidence Before and After Reasoning

요약

추론 언어 모델의 신뢰도를 사고 전과 후로 구분하여 교정하는 CALIBER 프레임워크를 제안합니다. 사고 전에는 프롬프트 해결 확률을, 사고 후에는 답변의 정답 가능성을 예측하도록 설계하여 교정 오차를 획기적으로 줄였습니다.

핵심 포인트

신뢰도를 사고 전(프롬프트 수준)과 후(답변 수준)로 구분하여 관리
7B 모델 기준 BigMathDigits 데이터셋에서 ECE를 52.5% 감소시킴
분포 외(OOD) 상황인 GPQA, TriviaQA 등에서도 우수한 성능 입증
위치-대상 정렬을 통해 모델의 신뢰도 예측 정확도와 성능을 동시에 유지

추론 언어 모델 (Reasoning language models)은 점점 더 어려운 질문에 답하는 것뿐만 아니라, 성공 가능성을 추정할 것을 요구받고 있습니다. 기존 방법들은 일반적으로 신뢰도 (confidence)를 단 한 번만 유도합니다: 사고하기 전이거나 답변한 후 중 하나입니다. 우리는 추론 모델의 신뢰도가 상태 의존적 (state-dependent)이라고 주장합니다: 사고하기 전의 신뢰도는 모델이 프롬프트 (prompt)를 올바르게 해결할 확률을 추정해야 하며, 사고한 후의 신뢰도는 도출된 답변이 정답일 가능성이 높은지를 예측해야 합니다. 이러한 구분은 적절한 감독 대상 (supervision target)을 결정합니다: 프롬프트 수준의 성공은 프롬프트를 본 후 이루어진 신뢰도 추정을 감독해야 하며, 개별 답변 수준의 정답 여부는 답변한 후 이루어진 신뢰도 추정을 감독해야 합니다. 우리는 두 가지 추정치를 모두 유도하고, 각 추정치를 해당 정보 상태 (information state)와 일치하는 대상으로 감독하는 CALIBER (Calibration Before and After Reasoning)를 소개합니다. 이 통합 프로토콜 (unified protocol) 하에서, CALIBER는 7B 모델 기준 BigMathDigits 데이터셋에서 가장 강력한 단일 신뢰도 베이스라인 (single-confidence baseline) 대비 기대 교정 오차 (Expected Calibration Error, ECE)를 52.5% 감소시켰으며, 최고의 브라이어 점수 (Brier score)와 AUROC를 달성하는 동시에 최고 정확도 (accuracy)와 2.1포인트 이내의 차이를 유지했습니다. 나아가, 더 큰 30B 모델에서도 CALIBER는 BigMathDigits에서 최고의 ECE를 달성하는 동시에 브라이어 점수와 AUROC에서도 경쟁력을 유지했습니다. 분포 외 (Out of distribution) 상황에서, CALIBER는 GPQA 및 TriviaQA에서 최고의 ECE와 브라이어 점수를 달성했으며, SimpleQA에서도 경쟁력을 유지했습니다. 절제 연구 (Ablations)를 통해 이러한 위치-대상 정렬 (position-target alignment)이 분포 변화 (distribution shift) 상황에서 가장 유익하며, 모든 분포 외 벤치마크에서 일관되게 교정 오차를 줄여준다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

CALIBER: 언어 모델의 추론 전후 신뢰도 교정 (Calibrating Confidence Before and After Reasoning

요약

핵심 포인트

댓글