언어 모델의 잠재 궤적(Latent Trajectories) 내 불변 추론 방향
요약
잠재 추론 모델의 은닉 상태 공간 내에서 안정적인 추론 방향을 식별하고 조작하는 TILR 프레임워크를 제안합니다. 연구 결과, 잠재 궤적 내에는 저차원 불변 구조가 존재하며 이를 활용해 추론 일관성을 크게 향상시킬 수 있음을 입증했습니다.
핵심 포인트
- 잠재 추론 궤적 내에 안정적인 불변 방향과 불안정한 변동이 공존함
- TILR 프레임워크를 통해 학습 없이 잠재 공간 내 추론 방향 조작 가능
- 패러프레이즈 시 답변 일관성을 약 10% 향상시키고 궤적 분산을 최대 50% 감소시킴
- 잠재 추론의 기하학적 구조가 추론 행동의 전이 가능성을 뒷받침함
잠재 추론 모델(Latent reasoning models)은 은닉 상태 공간(hidden-state space)에서 직접 다단계 추론을 수행하지만, 이러한 잠재 추론 궤적(latent reasoning trajectories)의 구조는 여전히 제대로 이해되지 않고 있습니다. 본 연구에서는 더 강력한 추론 궤적과 더 약한 추론 궤적 사이의 대조적 정제 신호(contrastive refinement signals)가 매우 집중된 저차원 구조(low-rank structure)를 보이는 반면, 제약되지 않은 잠재 업데이트(unconstrained latent updates)는 패러프레이즈(paraphrases), 체크포인트 선택, 궤적 섭동(trajectory perturbations)에 민감하게 반응한다는 것을 보여줍니다. 이러한 관찰 결과는 잠재 추론 궤적이 불안정한 인스턴스별 변동(instance-specific variation)과 혼합된 안정적인 불변 방향(invariant directions)을 포함하고 있음을 시사합니다. 우리는 잠재 공간 내에서 안정적인 추론 방향을 식별하고 조작하기 위한 학습이 필요 없는 개입 프레임워크인 extbf{Trajectory-Invariant Latent Refinement (TILR)}을 소개합니다. TILR은 먼저 입력 전반에 걸친 대조적 궤적 차이로부터 저차원 불변 부공간(low-rank invariant subspace)을 학습한 다음, 적응형 정렬 게이트(adaptive alignment gate)를 통해 정렬이 잘 되지 않는 업데이트를 억제하면서 잠재 개입(latent interventions)을 이 부공간으로 제한합니다. 6개의 추론 벤치마크를 통해, 우리는 적은 수의 잠재 방향이 강력한 추론 궤적과 약한 추론 궤적 사이의 변동 대부분을 설명한다는 것을 발견했습니다. 이러한 방향에 대한 개입은 추론 일관성(reasoning consistency)을 인과적으로 향상시키고 패러프레이즈 및 섭동 하에서의 궤적 불안정성을 줄입니다. TILR은 추론 정확도를 유지하면서 패러프레이즈 하에서의 답변 일관성을 약 10% 향상시키고 잠재 궤적 분산(latent trajectory variance)을 최대 $50%$까지 감소시킵니다. 이러한 결과는 은닉 상태 궤적 내의 안정적인 저차원 구조로부터 전이 가능한 추론 행동이 나타난다는 잠재 추론의 기하학적 관점을 뒷받침합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기