샘플링을 통한 추론: 결정 지점에서의 절단 (Reasoning with Sampling: Cutting at Decision Points)
요약
강화학습 없이 베이스 모델의 파워 분포 샘플링만으로 추론 능력을 높이는 새로운 연구를 소개합니다. 엔트로피를 활용해 핵심 결정 지점을 식별하고 재샘플링하는 'Entropy-Cut Metropolis-Hastings' 알고리즘을 제안합니다.
핵심 포인트
- 엔트로피를 대리 지표로 사용하여 핵심 결정 지점 식별
- 무작위 절단 방식보다 효율적인 샘플링 알고리즘 제안
- MATH500, HumanEval 등 주요 벤치마크에서 성능 향상 입증
- 결정 횟수에 비례하는 혼합 시간(Mixing time) 증명
프런티어 추론 모델 (Frontier reasoning models)은 강화학습 (Reinforcement Learning, RL)을 통해 베이스 언어 모델 (Base language models)을 사후 학습 (Posttraining)함으로써 생성됩니다. 최근 연구들은 베이스 모델 분포의 날카로워진 버전, 즉 소위 파워 분포 (Power distribution)로부터 샘플링하는 것이 추가적인 학습, 큐레이션된 데이터셋, 또는 검증기 (Verifiers) 없이도 대등한 추론 능력을 이끌어낼 수 있음을 보여주며 기존 방식에 도전하고 있습니다. 그러나 이 방법을 실용적으로 만들기 위해서는 파워 분포로부터 효율적으로 샘플링하는 것이 필요합니다. 샘플러는 타겟 분포의 모드 (Modes) 사이를 이동해야 하므로 파워 분포로 '혼합 (Mix)'되어야 하며, 직관적으로는 예를 들어 서로 다른 추론 전략을 시도하는 것을 의미합니다. 이전 연구에서 제안된 샘플러들은 현재의 추론 트레이스 (Reasoning trace) 내에서 '절단 (Cut)' 위치를 무작위로 균등하게 반복 선택하고, 해당 위치부터 그 이후의 접미사 (Suffix)를 재샘플링합니다. 하지만 추론 트레이스는 일반적으로 몇 가지 중대한 결정 (예: 증명 전략이나 알고리즘의 선택)을 포함하고 있으며, 우리는 균등하게 선택된 절단 지점이 결정 지점을 재방문하기보다는 국소적인 세부 사항을 다시 쓰는 경향이 있음을 관찰했습니다. 우리는 베이스 모델의 다음 토큰 엔트로피 (Next-token entropy)를 대리 지표 (Proxy)로 사용하여 핵심 결정 지점을 식별하고 해당 위치에서 재샘플링하는 알고리즘 (Entropy-Cut Metropolis-Hastings)을 소개합니다. 우리는 엔트로피 점프 (Entropy jumps)가 결정 지점을 식별하는 유용한 대리 지표임을 경험적으로 검증하였으며, 정형화된 추론 모델 (Stylized model of reasoning)에서 우리 방법의 혼합 시간 (Mixing time)이 토큰의 수(훨씬 더 클 수 있음)가 아닌 트레이스 내의 결정 횟수에 따라 확장됨을 증명합니다. MATH500, HumanEval, GPQA Diamond, 그리고 AIME26 전반에 걸쳐, 우리 방법은 베이스라인 및 RL로 학습된 모델들보다 일관되게 향상된 성능을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기