arXiv논문2026. 04. 30. 15:09

시스템 통합 추측성 디코딩을 통한 RL 포스트 트레이닝 롤아웃 가속화

요약

본 기사는 대규모 언어 모델(LLM)의 RL(Post-training) 과정에서 발생하는 병목 현상을 해결하기 위해 '추측성 디코딩(Speculative Decoding)'을 적용하는 방법을 제안합니다. 기존 효율화 방법들이 오프-폴리시나 리플레이에 초점을 맞춘 것과 달리, 본 연구는 목표 모델의 출력 분포를 보존하면서 RL 롤아웃을 가속화할 수 있는 손실 없는 원시(primitive)로서 추측성 디코딩을 활용합니다. vLLM 백엔드를 통해 이를 구현함으로써 동기식 및 비동기식 파이프라인 모두에서 RL 트레이닝의 처리량을 크게 향상시키며, 특히 대규모 모델 환경에서 최대 2.5배의 가속 효과를 기대할 수 있습니다.

핵심 포인트

RL(Post-training) 과정은 LLM 롤아웃 생성에 병목 현상을 일으키므로, 롤아웃 가속화가 핵심 과제이다.
본 연구는 목표 모델의 출력 분포를 보존하는 '추측성 디코딩'을 RL 롤아웃 가속화를 위한 손실 없는 방법으로 제시한다.
vLLM 백엔드를 사용하여 추측성 디코딩을 구현함으로써 동기식 및 비동기식 파이프라인 모두에서 적용 가능하다.
8B 모델의 동기식 환경에서 1.8배, 그리고 235B 규모의 비동기식 엔드투엔드 트레이닝에서 최대 2.5배의 가속 효과를 입증했다.

프론티어 언어 모델의 RL(post-training) 은 오토레귀시브 롤아웃 생성에 의해 점점 더 병목화되고 있어, 롤아웃 가속화가 핵심 시스템 과제가 되고 있습니다. 기존 많은 효율성 방법은 오프-폴리시 실행, 리플레이 또는 낮은 정밀도 생성 등을 통해 rollout 또는 최적화 체제를 변경함으로써 처리량을 개선합니다. 우리는 목표 모델의 출력 분포를 보존하는 RL 롤아웃을 위한 손실 없는 가속화 원시(primitive)로서 추측성 디코딩(speculative decoding)을 연구합니다. 우리는 vLLM 백엔드를 사용하여 NeMo-RL 에 추측성 디코딩을 구현하여, 동기식 및 비동기식 파이프라인을 지원하고 RL 롤아웃 중 추측(speculation)을 가능하게 합니다. 이 혜택은 사전 학습된 MTP 헤드, 작은 외부 드래프트 모델 또는 Eagle3 와 같이 전통적으로 RL 단계 이후에 적용되던 기술과 같은 추측 메커니즘 전반에 걸쳐 실현 가능합니다. 이는 RL 트레이닝 내부에서 최첨단 추측성 디코딩을 위한 배포 경로를 제공합니다. 8B 규모의 동기식 RL 환경에서의 추론(post-training) 작업에서 추측성 디코딩은 롤아웃 처리량을 1.8 배 개선합니다. 고충실도 성능 시뮬레이터를 사용하여, 비동기식 RL 과 추측성 디코딩을 결합하면 235B 규모에서 엔드투엔드 트레이닝 속도를 최대 2.5 배 가속화할 것으로 예상됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

시스템 통합 추측성 디코딩을 통한 RL 포스트 트레이닝 롤아웃 가속화

요약

핵심 포인트

댓글