본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:57

단계별 신뢰도 귀속 (Stepwise Confidence Attribution)을 통한 블랙박스 LLM의 다단계 추론 실패 진단

요약

본 논문은 블랙박스 LLM의 다단계 추론 과정 중 어느 단계에서 오류가 발생하는지 진단하기 위한 '단계별 신뢰도 귀속(SCA)' 프레임워크를 제안합니다. 정보 병목(Information Bottleneck) 원칙을 활용하여 추론 단계별 신뢰도를 할당하며, 비매개변수적 방식인 NIBS와 그래프 기반 방식인 GIBS를 통해 오류 지점을 식별합니다. 실험 결과, SCA를 활용한 자기 수정 방식이 기존 답변 수준의 피드백보다 수정 성공률을 최대 13.5% 향상시킴을 입증했습니다.

핵심 포인트

  • 폐쇄형(closed-source) LLM에서도 내부 접근 권한 없이 추론 과정만으로 단계별 신뢰도 측정 가능
  • 정보 병목(Information Bottleneck) 원칙을 적용하여 정답 간의 합의 구조와 일치하는 단계에 높은 신뢰도 부여
  • 비매개변수적 접근 방식(NIBS)과 그래프 기반 학습 모델(GIBS)이라는 두 가지 상호 보완적 방법론 제시
  • 단계별 신뢰도를 활용한 자기 수정(self-correction) 시 기존 방식 대비 수정 성공률 최대 13.5% 향상

대규모 언어 모델 (Large Language Models, LLMs)은 단계별 해결책을 생성함으로써 객관적인 정답이 존재하는 추론 작업에서 강력한 성능을 달성해 왔으나, 다단계 추론 과정 (multi-step reasoning trace)의 어느 지점에서 실패가 발생하는지 진단하는 것은 여전히 어려운 과제로 남아 있습니다. 신뢰도 추정 (Confidence estimation)은 진단 신호를 제공하지만, 기존 방법들은 최종 답변에 국한되거나 모델의 내부 접근 권한 (internal model access)을 요구한다는 제약이 있습니다. 본 논문에서는 생성된 추론 과정 (reasoning traces)만을 기반으로 단계별 신뢰도를 할당하는 폐쇄형 (closed-source) LLM을 위한 프레임워크인 단계별 신뢰도 귀속 (Stepwise Confidence Attribution, SCA)을 소개합니다. SCA는 정보 병목 (Information Bottleneck, IB) 원칙을 적용합니다. 즉, 정답 솔루션들 사이의 합의 구조 (consensus structures)와 일치하는 단계에는 높은 신뢰도를 부여하고, 이로부터 벗어나는 단계는 잠재적인 오류로 표시합니다. 우리는 두 가지 상호 보완적인 방법을 제안합니다: (1) 그래프 구조 없이 일관성을 측정하는 비매개변수적 (non-parametric) IB 접근 방식인 NIBS, 그리고 (2) 논리적 가변성 (logical variability)을 포착하기 위해 미분 가능한 마스크 (differentiable mask)를 통해 서브그래프 (subgraphs)를 학습하는 그래프 기반 IB 모델인 GIBS입니다. 수학적 추론 및 멀티홉 질의응답 (multi-hop question answering)에 대한 광범위한 실험 결과, SCA가 추론 오류와 강력하게 상관관계가 있는 저신뢰도 단계를 안정적으로 식별함을 보여주었습니다. 또한, 단계별 신뢰도를 사용하여 자기 수정 (self-correction)을 유도할 경우, 답변 수준의 피드백 (answer-level feedback)보다 수정 성공률을 최대 13.5%까지 향상시킬 수 있음을 확인했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0