끌개 역학으로서의 추론: Gibbs 가중 에너지 최소화를 통한 잠재 메모리 검색
요약
LLM의 추론 과정을 잠재적 끌개(latent attractors)로 저장된 고차원 연상 메모리 검색 과정으로 재정의하는 연구입니다. Gibbs 가중 에너지 최소화 메커니즘을 통해 추론 경로를 샘플링하고 최적의 솔루션으로 이완시키는 물리 기반 접근법을 제안합니다.
핵심 포인트
- 추론을 자기회귀 생성이 아닌 끌개 분지로의 동적 정착 과정으로 모델링
- Gibbs 측도를 활용해 추론 경로에 역에너지 가중치를 부여하는 검색 메커니즘 도입
- Microsoft Phi-3.5 모델의 GSM8K 성능을 5.38% 향상시킴
- 환각 현상을 불안정한 국소 최솟값으로, 올바른 추론을 넓은 끌개 분지로 해석
대규모 언어 모델 (LLMs)은 전통적으로 자기회귀 생성기 (autoregressive generators)로 간주됩니다. 그러나 집합적 계산 (collective computation)의 관점에서 보면, 이들은 복잡한 추론 패턴을 잠재적 끌개 (latent attractors)로 저장하는 고차원 밀집 연상 메모리 (Dense Associative Memories)로서 기능합니다. 본 연구에서는 수학적 추론의 에너지 경관 (energy landscape)을 조사합니다. 우리는 올바른 추론 체인이 모델의 출력 분포에서 깊고 넓은 끌개 분지 (attractor basins, "flat minima")에 대응하는 반면, 환각 (hallucinations)은 날카롭고 불안정한 국소 최솟값 (local minima)으로 나타난다고 가정합니다. 이러한 기하학적 구조를 활용하기 위해, 우리는 궤적의 스펙트럼 엔트로피 (spectral entropy)에 대한 Gibbs 측도 (Gibbs measure)를 기반으로 하는 검색 메커니즘을 도입합니다. 여러 추론 경로를 샘플링하고 이를 역에너지 ($P \propto e^{-βE}$)로 가중치를 부여함으로써, 우리는 연상 메모리의 평형 분포 (equilibrium distribution)를 근사하여 시스템을 견고한 솔루션으로 효과적으로 "이완 (relaxing)" 시킵니다. 실증적으로, 이 물리 기반 메커니즘은 Microsoft Phi-3.5의 GSM8K 성능을 5.38% (84.7% $\to$ 90.1%) 향상시켰으며, 이는 추론이 탐욕적 다음 토큰 예측 (greedy next-token prediction)보다는 끌개 분지로의 동적 정착 과정 (dynamic settling process)으로 모델링하는 것이 더 적절함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기