평형 추론기 (Equilibrium Reasoners): 어트랙터 (Attractor) 학습을 통한 확장 가능한 추론
요약
평형 추론기(Equilibrium Reasoners, EqR)는 잠재 상태를 반복적으로 업데이트하여 테스트 시간 연산량을 확장하는 새로운 추론 패러다임을 제안합니다. 이 모델은 작업 조건부 어트랙터(Task-conditioned attractors)를 학습함으로써 외부 검증기 없이도 안정적인 고정점으로 수렴하여 문제를 해결합니다. 이를 통해 Sudoku-Extreme과 같은 고난도 작업에서 피드포워드 모델 대비 압도적인 정확도 향상을 입증했습니다.
핵심 포인트
- 테스트 시간 연산량 확장을 위해 반복 횟수(깊이)와 확률적 궤적 집계(너비)를 활용함
- 외부 검증기나 작업 특화된 사전 지식 없이도 일반화 가능한 추론이 가능함
- 작업 난이도에 따라 연산량을 적응적으로 할당할 수 있는 어트랙터 메커니즘 제공
- Sudoku-Extreme 태스크에서 최대 40,000회 반복을 통해 정확도를 2.6%에서 99% 이상으로 개선
잠재 상태 (Latent state)를 반복적으로 업데이트하여 테스트 시간 연산량 (Test-time compute)을 확장하는 것은 추론을 위한 강력한 패러다임으로 부상했습니다. 하지만 이러한 반복 모델이 암기된 패턴을 넘어 일반화할 수 있게 하는 내부 메커니즘은 여전히 불분명합니다. 우리는 일반화 가능한 추론이 작업 조건부 어트랙터 (Task-conditioned attractors), 즉 안정적인 고정점 (Stable fixed points)이 유효한 솔루션에 대응하는 잠재 역학계 (Latent dynamical systems)를 학습함으로써 발생한다고 가설을 세웠습니다. 우리는 외부 검증기 (External verifiers)나 작업 특화된 사전 지식 (Task-specific priors) 없이도 테스트 시간 확장이 가능한 평형 추론기 (Equilibrium Reasoners, EqR)를 통해 이 과정을 공식화합니다. EqR은 두 가지 축을 따라 내부 역학을 확장합니다: 더 많은 반복을 수행함으로써 얻는 깊이 (Depth), 그리고 여러 초기화로부터 얻은 확률적 궤적 (Stochastic trajectories)을 집계함으로써 얻는 너비 (Breadth)입니다. 실증적으로, 테스트 시간 확장에 따른 이득은 솔루션과 일치하는 어트랙터로의 강력한 수렴과 밀접하게 결합되어 있습니다. 이러한 어트랙터 관점은 신경망이 작업 난이도에 따라 테스트 시간 연산량을 적응적으로 할당할 수 있게 합니다. 단순한 사례는 1~5회의 반복 단계 내에 수렴하지만, 더 어려운 사례는 대규모 테스트 시간 확장의 혜택을 받습니다. 최대 40,000개 층에 해당하는 수준까지 언롤링 (Unrolling)함으로써, 확장 가능한 잠재 추론 (Scalable latent reasoning)은 Sudoku-Extreme 태스크에서 피드포워드 (Feedforward) 모델의 2.6% 정확도를 99% 이상으로 끌어올립니다. 이러한 결과는 학습된 어트랙터 경관 (Attractor landscapes)이 반복적 잠재 모델에서의 확장 가능한 추론을 이해하기 위한 유용한 메커니즘적 관점을 제공함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기