본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 13:22

추론은 어디에서 무너지는가? 은닉 상태 전송 기하학 (Hidden-State Transport Geometry)을 통한 단계별 환각 탐지

요약

본 논문은 LLM이 다단계 추론 과정에서 발생하는 환각을 탐지하는 새로운 방법을 제시합니다. 기존 방식들이 전체 출력에 대한 단일 신뢰도 점수를 부여하거나 첫 오류를 국소화하는 데 실패했던 것과 달리, 이 방법은 환각을 '은닉 상태 궤적'의 기하학적 속성으로 정의합니다. 올바른 추론 과정은 안정적인 매니폴드를 따라 이동하며, 오류는 전송 비용이 국소적으로 벗어나는 현상으로 나타나며, 이를 단일 순전파로 첫 오류를 정확히 국소화할 수 있습니다.

핵심 포인트

  • 환각 탐지를 은닉 상태 궤적의 기하학적 문제(trajectory dynamics)로 재정의함.
  • 레이블 조건부 교사 모델과 증류된 BiLSTM 학생 모델을 사용하여 추론 시 원시 은닉 상태에서 작동하는 시스템을 구축함.
  • 대조 PCA를 활용하여 첫 오류와 올바른 상태 간의 전송 분리 목적 함수(transport-separation objective)를 최적화함.
  • 제안된 방법은 ProcessBench, PRM800K 등 여러 벤치마크에서 기존 베이스라인을 능가하는 성능을 보임.

대규모 언어 모델 (Large language models)은 다단계 추론 (multi-step reasoning) 과정에서 환각 (hallucinate)을 일으키지만, 기존의 대부분의 탐지기들은 추적 수준 (trace level)에서 작동합니다. 즉, 전체 출력에 대해 하나의 신뢰도 점수를 할당하며, 첫 번째 오류를 국소화 (localize)하는 데 실패하고, 종종 여러 번의 샘플링된 완성본 (sampled completions)을 필요로 합니다. 우리는 대신 환각을 단일 순전파 (forward pass) 동안 생성되는 은닉 상태 궤적 (hidden-state trajectory)의 속성으로 정의합니다. 올바른 추론은 국소적으로 일관된 전이 (locally coherent transitions)의 안정적인 매니폴드 (stable manifold)를 통해 이동하며, 첫 번째 오류는 이 매니폴드로부터 전송 비용 (transport cost)이 국소적으로 벗어나는 현상으로 나타납니다.

우리는 이 관점을 다음과 같이 구현합니다: 레이블 조건부 교사 모델 (label-conditioned teacher)은 추적 특화 대조 PCA 렌즈 (trace-specific contrastive PCA lens)를 구축하고 7개의 기하학적 전이 특징 (geometric transition features)으로 각 단계를 점수화하며, 교사 모델로부터 증류된 (distilled) 배포 가능한 BiLSTM 학생 모델 (student)은 추론 시 레이블 없이 원시 은닉 상태 (raw hidden states)에서 작동합니다. 우리는 대조 PCA (contrastive PCA)가 첫 번째 오류 상태와 올바른 상태 사이의 전송 분리 목적 함수 (transport-separation objective)를 위한 최적의 투영 (optimal projection)임을 증명하며, 첫 번째 오류가 이전의 올바른 전이들에 대해 양의 전송 마진 (positive transport margin)을 생성할 때마다 단일 패스 첫 번째 오류 국소화 (single-pass first error localization)가 성립함을 증명합니다.

ProcessBench, PRM800K, HaluEval, 그리고 TruthfulQA에서 두 모델 모두 도메인 내 (in-domain)에서 엔트로피 기반 (entropy-based), 프로빙 기반 (probing-based), 그리고 어텐션 기반 (attention-based) 베이스라인들을 능가했습니다. 교사 모델은 언어 모델과 데이터셋 전반에 걸쳐 안정적으로 전이되는 반면, 학생 모델은 분포 변화 (shift) 하에서 붕괴되는데, 이는 우리의 증류 이론 (distillation theory)이 예측하는 격차입니다. 이러한 결과는 단계별 환각 탐지를 궤적 역학 (trajectory dynamics)의 문제로 재정의하며, 배포를 위한 핵심 장애물인 분포 변화 하에서의 대조 전송 마진 (contrastive transport margin) 보존 문제를 식별합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0