잠재적 사고 사슬(Latent Chain-of-Thought)에서의 효과적인 감독(Supervision)은 무엇인가: 정보 이론적 분석
요약
Latent Chain-of-Thought(CoT)의 학습 문제를 정보 이론적 관점에서 분석하고, 이중 붕괴 현상을 규명한 연구입니다. 궤적 감독과 공간 감독을 통해 잠재 공간의 의미론적 구조를 보존하는 새로운 감독 프레임워크를 제안합니다.
핵심 포인트
- Latent CoT의 실패 원인을 그래디언트 감쇠와 표현 표류로 규정
- 궤적 감독과 공간 감독을 통한 상호 보완적 프로세스 감독 제안
- 정보 충실도가 추론 정확도에 직결됨을 입증
- 상호 정보량 최대화를 통한 잠재적 추론 감독 원칙 제시
잠재적 사고 사슬 (Latent Chain-of-Thought (CoT))은 연속적인 은닉 상태 (hidden states) 내에 추론을 내재화하여, 장황한 이산적 추론 흔적 (discrete reasoning traces)에 대한 유망한 대안을 제공합니다. 그러나 결과 감독 (outcome supervision)은 약한 학습 신호를 제공하고 잠재적 궤적 (latent trajectories)을 의미론적 표류 (semantic drift)에 취약하게 만들기 때문에, 강력한 잠재적 추론을 구현하는 것은 여전히 어렵습니다. 본 연구에서는 정보 이론적 (information-theoretic) 관점에서 Latent CoT를 분석하고, 이러한 실패를 이중 붕괴 (dual collapse)로 규정합니다: 즉, 최적화 경로를 따른 그래디언트 감쇠 (gradient attenuation)와 잠재 공간 (latent space)에서의 표현 표류 (representational drift)입니다. 우리는 더 나아가 프로세스 감독 (process supervision)을 두 가지 상호 보완적인 차원으로 분해합니다: 밀집된 단계별 추론 신호를 주입하는 궤적 감독 (Trajectory Supervision)과 잠재 매니폴드 (latent manifold)의 의미론적 구조를 보존하는 공간 감독 (Space Supervision)입니다. 우리의 분석은 경직된 기하학적 압축 (geometric compression)이 추론 공간을 붕괴시킬 수 있는 반면, 생성적 재구성 (generative reconstruction)은 정보 용량 (information capacity)을 더 잘 보존하는 더 유연한 의미론적 앵커 (semantic anchor)를 제공한다는 것을 보여줍니다. 이러한 효과를 측정하기 위해, 우리는 잠재적 궤적과 명시적 추론 단계 사이의 상호 정보량 (mutual information)을 정량화하는 통합 잠재 프로브 (Unified Latent Probe (ULP))를 도입합니다. 실험 결과, 명확한 정보-성능 결합 (Information-Performance Binding)이 드러났습니다: 즉, 추론 정확도는 잠재적 사슬 내에 보존된 정보 충실도 (information fidelity)에 달려 있습니다. 이러한 발견은 잠재적 추론 감독을 위한 원칙적인 프레임워크를 제공하며, 기하학적 모방 (geometric imitation)에서 상호 정보량 최대화 (mutual information maximization)로의 전환을 제안합니다. 우리의 코드는
ef{https://github.com/EIT-NLP/Supervision-in-Latent-CoT}{이 저장소}에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기