엔트로피 경계 돌파: 거부 샘플링(Rejection Sampling)을 결합한 MTP를 통한 RL 학습 가속화
요약
RL 학습 과정에서 MTP의 수락률 저하 문제를 해결하기 위해 거부 샘플링을 결합한 Bebop 연구를 제안합니다. 모델 엔트로피 변동을 완화하는 새로운 TV 손실 함수를 통해 추론 처리량을 최대 25% 향상시키고 학습 속도를 가속화합니다.
핵심 포인트
- RL 단계의 엔트로피 상승이 MTP 수락률을 저하시키는 주요 원인임을 규명
- 확률적 거부 샘플링을 통해 엔트로피로 인한 교란 완화
- 수락률 최적화를 위한 새로운 엔드투엔드 TV 손실(TV loss) 제안
- Qwen 모델 기반 비동기 RL 학습에서 최대 1.8배 가속 달성
강화학습 (RL)은 현대 대규모 언어 모델 (LLM)의 핵심 구성 요소가 되었지만, 롤아웃 (rollout) 단계는 여전히 RL 학습 파이프라인의 주요 병목 구간으로 남아 있습니다. 다중 토큰 예측 (Multi-Token Prediction, MTP)은 투기적 디코딩 (speculative decoding)을 통해 롤아웃을 가속화하는 자연스러운 해결책을 제공하지만, 많은 연구에서 RL 학습 과정 중 MTP 수락률 (acceptance rate)이 크게 저하되어 속도 향상 성능이 제한된다는 점을 관찰했습니다. 이러한 병목 현상을 해결하기 위해, 우리는 LLM 사후 학습 (post-training)에서의 MTP에 대한 체계적인 연구인 Bebop을 제시하며, 대규모 RL 파이프라인에 MTP를 통합하기 위한 실질적인 레시피를 제공합니다. 첫째, 우리는 MTP 수락률이 근본적으로 모델 엔트로피 (entropy)의 변동에 의해 제한된다는 것을 밝혀냈으며, 이는 RL 단계에서의 엔트로피 상승과 명확한 음의 선형 관계를 보입니다. 둘째, 확률적 거부 샘플링 (probabilistic rejection sampling)이 탐욕적 초안 샘플링 (greedy draft sampling)에 비해 RL에서 엔트로피로 인해 발생하는 교란을 크게 완화함을 보여줍니다. 나아가 우리는 기존의 MTP 학습 목적 함수 (cross-entropy 또는 KL)가 이러한 설정에서 최적화되지 않음을 확인하였고, 이에 따라 다단계 거부 샘플링 수락률을 직접 최적화하는 새로운 엔드투엔드 (end-to-end) TV 손실 (TV loss)을 제안합니다. 이는 약 10%의 수락률 향상을 가져오며, 수학적 추론, 코드 생성 및 에이전트 (agentic) 작업 전반에 걸쳐 최대 95%의 수락률과 최대 25%의 추가 추론 처리량 (inference throughput) 이득을 달성합니다. 셋째, 우리는 RL 과정 중 다양한 온라인 MTP 학습 전략을 테스트하였으며, e2e TV 손실 및 거부 샘플링을 사용한 pre-RL MTP 학습이 전체 RL 과정 동안 일관된 수락률과 속도 향상을 달성하여 비용이 많이 드는 온라인 MTP 업데이트의 필요성을 제거함을 보여줍니다. 우리는 우리의 발견을 검증하는 광범위한 실험과 분석을 제공합니다. 실험 결과에 따르면, 우리의 방법은 Qwen3.5, Qwen3.6, Qwen3.7 모델의 비동기 (async) RL 학습에서 최대 1.8배의 엔드투엔드 가속을 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기