단계별 신뢰도 귀속 (Stepwise Confidence Attribution)을 통한 블랙박스 LLM의 다단계 추론 실패 진단

대규모 언어 모델 (Large Language Models, LLMs)은 단계별 해결책을 생성함으로써 객관적인 정답이 존재하는 추론 작업에서 강력한 성능을 달성해 왔으나, 다단계 추론 과정 (multi-step reasoning trace)의 어느 지점에서 실패가 발생하는지 진단하는 것은 여전히 어려운 과제로 남아 있습니다. 신뢰도 추정 (Confidence estimation)은 진단 신호를 제공하지만, 기존 방법들은 최종 답변에 국한되거나 모델의 내부 접근 권한 (internal model access)을 요구한다는 제약이 있습니다. 본 논문에서는 생성된 추론 과정 (reasoning traces)만을 기반으로 단계별 신뢰도를 할당하는 폐쇄형 (closed-source) LLM을 위한 프레임워크인 단계별 신뢰도 귀속 (Stepwise Confidence Attribution, SCA)을 소개합니다. SCA는 정보 병목 (Information Bottleneck, IB) 원칙을 적용합니다. 즉, 정답 솔루션들 사이의 합의 구조 (consensus structures)와 일치하는 단계에는 높은 신뢰도를 부여하고, 이로부터 벗어나는 단계는 잠재적인 오류로 표시합니다. 우리는 두 가지 상호 보완적인 방법을 제안합니다: (1) 그래프 구조 없이 일관성을 측정하는 비매개변수적 (non-parametric) IB 접근 방식인 NIBS, 그리고 (2) 논리적 가변성 (logical variability)을 포착하기 위해 미분 가능한 마스크 (differentiable mask)를 통해 서브그래프 (subgraphs)를 학습하는 그래프 기반 IB 모델인 GIBS입니다. 수학적 추론 및 멀티홉 질의응답 (multi-hop question answering)에 대한 광범위한 실험 결과, SCA가 추론 오류와 강력하게 상관관계가 있는 저신뢰도 단계를 안정적으로 식별함을 보여주었습니다. 또한, 단계별 신뢰도를 사용하여 자기 수정 (self-correction)을 유도할 경우, 답변 수준의 피드백 (answer-level feedback)보다 수정 성공률을 최대 13.5%까지 향상시킬 수 있음을 확인했습니다.

Insights

단계별 신뢰도 귀속 (Stepwise Confidence Attribution)을 통한 블랙박스 LLM의 다단계 추론 실패 진단

요약

핵심 포인트

댓글

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek