대규모 추론 모델(LRMs)의 충실한 신뢰도 표현 정량화
요약
대규모 추론 모델(LRMs)이 자신의 내재적 신뢰도와 언어적 표현 사이의 일치성(Faithful Calibration)을 얼마나 잘 유지하는지 분석합니다. 기존 측정 방식의 한계를 지적하며, 토큰 확률과 은닉 상태 등을 활용한 새로운 정량화 프레임워크를 제안합니다.
핵심 포인트
- LRMs의 추론 흔적은 신뢰도 측정의 복잡성을 증가시킴
- 언어적 결단력과 내부 불확실성을 비교하는 새 프레임워크 도입
- 추론 행동이 반드시 충실한 신뢰도 표현으로 이어지지는 않음
- 고위험 상황을 위한 별도의 신뢰성 및 정렬 목표 필요성 강조
신뢰할 수 있는 불확실성 전달은 LLM(Large Language Models)의 신뢰성에 매우 중요하지만, 모델의 내재적 신뢰도와 (언어적으로) 표현된 신뢰도 사이의 일치성을 의미하는 충실한 보정(Faithful Calibration, FC)은 지속적인 실패 모드로 남아 있습니다. 이러한 과제는 대규모 추론 모델(Large Reasoning Models, LRMs)에게 핵심적인데, 이들의 확장된 추론 흔적(Reasoning Traces)은 종종 사용자들에게 숙고, 역량 및 자신감의 증거로 해석되기 때문입니다. FC의 중요성과 LRMs의 폭넓은 사용에도 불구하고, LRMs가 자신의 신뢰도를 어느 정도까지 충실하게 표현할 수 있는지는 여전히 제대로 이해되지 않고 있습니다. 더욱이, FC를 측정하는 기존의 패러다임은 LRMs가 생성하는 긴 사고 사슬(Chain-of-Thought, CoT) 출력에 잘 일반화되지 않습니다. 이러한 출력은 명확한 단계적 경계가 부족하고, 일관되지 않은 단계 구조를 포함하며, 흔적 전반에 걸쳐 복잡한 조건부 의존성(Conditional Dependencies)을 인코딩하는 경향이 있어 내재적 신뢰도(Intrinsic Confidence)의 추정을 어렵게 만듭니다.
이러한 문제를 해결하기 위해, 우리는 LRMs의 FC를 체계적으로 정량화하기 위한 새로운 프레임워크를 도입합니다. 우리의 프레임워크는 토큰 확률(Token Probabilities), 은닉 상태(Hidden States), 그리고 샘플링된 응답 일관성(Sampled Response Consistency)에 기반한 세 가지 내부 불확실성 원천과 비교하여 언어적 결단력(Linguistic Decisiveness)을 분석합니다. 또한, 흔적 전반의 조건부 및 구조적 변동을 제어하기 위해 접두사 조건부 샘플링(Prefix-conditioned Sampling) 접근 방식을 고안했습니다.
다양한 선도 모델, 데이터셋 및 프롬프트 세트에 우리의 프레임워크를 적용한 결과, 충실한 신뢰도 표현이 LRMs에게 매우 어려운 과제임을 발견했습니다. 추론 행동이 자동으로 FC의 향상으로 이어지지는 않으며, 비추론 모델을 위한 프롬프트 개입이 추론 환경에서의 충실도를 개선하지도 못했습니다. 서로 다른 신뢰도 추정기(Confidence Estimators)는 동일한 흔적에 대해 서로 다른 평가 결과를 생성하며, 이는 기존 평가 방법론의 취약성을 드러냅니다. 종합적으로, 우리의 연구는 특히 이러한 시스템이 고위험 상황(High-stakes Contexts)에 점점 더 많이 배치됨에 따라, FC를 LRMs를 위한 별도의 신뢰성 및 정렬(Alignment) 목표로 확립합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기