엔트로피 게이트 잠재 재귀 (Entropy-Gated Latent Recursion)
요약
추론 시간 스케일링을 위해 확률적 샘플링 외에 레이어 재적용을 통한 결정론적 샘플링 축을 제안하는 EGLR 기술을 소개합니다. 상위 레이어를 재귀적으로 적용하여 롤아웃 다양성을 확보함으로써 수학 추론 성능을 크게 향상시킵니다.
핵심 포인트
- 기존의 확률적 토큰 샘플링을 보완하는 결정론적 레이어 재적용 방식 제안
- EGLR을 통해 확률성 없이도 다양한 롤아웃 생성 가능
- 온도 샘플링과 결합 시 데카르트 샘플링 공간으로 확장되어 성능 극대화
- MATH-500 벤치마크에서 Qwen2.5-3B-Instruct 기준 91.6% 정확도 달성
- Self-consistency 및 Best-of-N 등 다운스트림 절차의 효율성 증대
추론 시간 스케일링 (Inference-time scaling)은 언어 모델의 추론 능력을 향상시키는 지배적인 레버가 되었으나, 기존 방법들은 단일 소스인 확률적 토큰 수준 샘플링 (stochastic token-level sampling)으로부터 롤아웃 다양성 (rollout diversity)을 도출합니다. 우리는 이러한 단일 축 샘플링 공간이 근본적으로 제한적이라고 주장하며, 완전히 결정론적(deterministic)이고 상호 보완적인 두 번째 축을 식별합니다. 즉, 불확실성이 높은 토큰에서 동결된 모델의 상위 디코더 레이어들을 재귀적으로 재적용하는 레이어 범위 $L$입니다. $L$의 선택에 따라 확률성 없이도 서로 다른 문제 집합을 해결하는 별개의 롤아웃이 생성됩니다. 우리는 이를 엔트로피 게이트 잠재 재귀 (Entropy-Gated Latent Recursion, EGLR)를 통해 구현합니다. EGLR은 다음 토큰 분포가 수렴할 때까지 최대 $K_{\max}$ 회 반복하여 상위 $L$개의 레이어를 재적용하는 훈련이 필요 없는 디코딩 절차입니다. $T$개의 온도 (temperature) 샘플과 결합하면, EGLR은 단일 축의 확률적 롤아웃 풀을 거의 동일한 롤아웃당 비용으로 $L \times T$ 데카르트 샘플링 공간 (Cartesian sampling space)으로 변환합니다. 우리는 8개의 지시어 튜닝된 (instruction-tuned) 모델과 6개의 수학 추론 벤치마크를 통해 이 공간을 특성화하였으며, $L$ 축이 온도에 진정으로 상호 보완적임을 보여줍니다. Qwen2.5-3B-Instruct를 사용한 MATH-500 테스트에서 결합된 $L \times T$ 오라클 (oracle)은 $91.6%$에 도달하였으며, 이는 온도 전용 오라클($83.4%$)보다 $+8.2$ 퍼센트 포인트, 레이어 전용 오라클($81.2%$)보다 $+10.4$ 퍼센트 포인트 높은 수치로, 두 축이 진정으로 상호 보완적인 문제들을 포착함을 확인시켜 줍니다. 확장된 롤아웃 풀은 자기 일관성 (self-consistency), 검증기를 사용한 Best-of-$N$, 그룹 상대적 강화학습 (group-relative RL training, GRPO)을 포함하여 롤아웃을 소비하는 모든 다운스트림 절차에 대해 프롬프트당 더 풍부한 후보를 제공하며, 확률적 노이즈에 의존하지 않는 추론 시간 스케일링의 새로운 방향을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기