arXiv논문2026. 06. 25. 12:09

로컬 브랜치 라우팅(Local Branch Routing)을 통한 효율적이고 학습 가능한 언어 모델 테스트 시간 스케일링 (Test-Time

요약

언어 모델의 추론 능력을 높이기 위한 새로운 테스트 시간 스케일링 프레임워크인 Local Branch Routing(LBR)을 제안합니다. 경량 라우터를 통해 효율적인 토큰 수준의 브랜치 선택을 수행하며, 강화학습을 통한 엔드투엔드 최적화가 가능합니다.

핵심 포인트

LBR은 계산 비용을 줄이면서도 효과적인 테스트 시간 스케일링을 제공함
경량 라우터를 사용하여 토큰 수준에서 최적의 서브트리를 선택
검증 가능한 보상을 활용한 엔드투엔드 강화학습(RL) 지원
수학적 추론 벤치마크에서 기존 베이스라인 대비 성능 향상 입증

테스트 시간 스케일링 (Test-time scaling)은 언어 모델의 추론 능력을 향상시키지만, 기존 방식들은 종종 어려운 트레이드오프(trade-off)에 직면합니다. 즉, 긴 사고 사슬 (Chain-of-thought) 샘플링은 단일 스레드(single-threaded) 상태로 유지되는 반면, 문장 또는 솔루션 수준의 탐색은 계산 비용이 많이 들고 엔드투엔드 (end-to-end)로 학습하기 어렵습니다. 우리는 작은 로컬 예측 트리 (local lookahead tree)를 확장하고, 샘플링된 모든 브랜치를 언어 모델을 통해 전달하며, 경량 라우터 (lightweight router)를 사용하여 확정할 depth-1 서브트리 (subtree)를 선택하는 토큰 수준의 테스트 시간 스케일링 프레임워크인 로컬 브랜치 라우팅 (Local Branch Routing, LBR)을 소개합니다. 후보 로컬 미래 (candidate local futures)의 은닉 상태 (hidden states)를 통해 라우팅함으로써, LBR은 각 토큰 결정이 전체 솔루션 수준의 탐색을 피하면서도 루트의 다음 토큰 분포 (next-token distribution) 이상의 증거를 사용할 수 있게 합니다. 결과적으로 발생하는 prune-shift-grow 디코딩 프로세스는 이산적인 브랜치 정체성 (discrete branch identities)을 보존하고 다루기 쉬운 트리 궤적 가능도 (tree-trajectory likelihood)를 정의합니다. 즉, 새로 성장한 노드는 처음 샘플링될 때 계산되며, 라우터 결정에는 명시적인 확률이 할당됩니다. 이를 통해 검증 가능한 보상 (verifiable rewards)을 사용하는 엔드투엔드 강화학습 (reinforcement learning)이 가능해지며, 이산 토큰 RLVR (discrete-token RLVR)과 동일한 가능도 비율 원칙 (likelihood-ratio principle) 하에서 베이스 모델과 라우터를 공동으로 최적화합니다. 합성 계층적 계획 (synthetic hierarchical-planning) 작업에서 LBR은 후보 은닉 상태 (post-candidate hidden states)가 유용한 라우팅 증거를 제공한다는 것을 보여줍니다. 수학적 추론 벤치마크에서 LBR은 이산 사고 사슬 (discrete chain-of-thought), 바닐라 이산 토큰 RLVR (vanilla discrete-token RLVR), 그리고 RL 호환 소프트 토큰 브랜칭 (RL-compatible soft-token branching) 베이스라인 대비 Pass@1 및 Pass@32를 모두 향상시킵니다. 이러한 결과는 경량 로컬 브랜칭 (lightweight local branching)이 언어 모델 테스트 시간 스케일링의 효율적이고 학습 가능하며 이산적인 형태를 제공함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

로컬 브랜치 라우팅(Local Branch Routing)을 통한 효율적이고 학습 가능한 언어 모델 테스트 시간 스케일링 (Test-Time

요약

핵심 포인트

댓글