arXiv논문2026. 06. 18. 11:44

EfficientRollout: RL 롤아웃을 위한 시스템 인지형 자기 투기적 디코딩 (Self-Speculative Decoding)

요약

강화학습(RL) 롤아웃 과정의 지연 시간 문제를 해결하기 위해 시스템 인지형 자기 투기적 디코딩 프레임워크인 EfficientRollout을 제안합니다. 타겟 모델에서 양자화된 초안 작성기를 유도하여 정책 변화에 대응하고, 시스템 상태에 따라 투기적 디코딩을 최적화합니다.

핵심 포인트

RL 롤아웃의 자기회귀 샘플링으로 인한 지연 시간 병목 현상 해결
진화하는 타겟 정책에 대응하는 양자화 기반 자기 투기적 디코딩 도입
수락 인지형 초안 길이 적응 및 시스템 인지형 SD 토글 정책 적용
모델 품질을 유지하며 엔드 투 엔드 지연 시간을 최대 12.7% 단축

강화학습 (Reinforcement Learning, RL)은 LLM의 강력한 추론 및 에이전트 능력을 가능하게 하는 대표적인 사후 학습 (post-training) 패러다임이 되었습니다. 그러나 롤아웃 (rollout) 생성은 여전히 지배적인 지연 시간 (latency) 병목 현상으로 남아 있는데, 이는 자기회귀 (autoregressive) 샘플링이 응답을 순차적으로 디코딩하며, 소수의 롱테일 (long-tailed) 생성들이 전체 완료 시간을 결정하는 경우가 많기 때문입니다. 투기적 디코딩 (Speculative Decoding, SD)은 이러한 병목 현상을 해결할 자연스러운 방법을 제공합니다. SD는 고정된 LLM을 서빙하기 위해 잘 확립된 기술로, 타겟 모델의 분포를 유지하면서 토큰을 빠르게 초안(draft)으로 작성하고 병렬 검증 (parallel verification)을 통해 이를 수락함으로써 지연 시간을 줄여줍니다. 그러나 SD의 실질적인 속도 향상은 RL 롤아웃에 직접적으로 적용되지 않습니다. (i) 진화하는 타겟 정책 (target policy)은 고정된 초안 작성기 (drafter)를 정책의 출력 분포와 점점 더 불일치하게 만들며, (ii) 롤아웃 디코딩 과정 전반에 걸쳐 활성 배치 크기 (active batch sizes)가 줄어들어, 디코딩 환경이 병렬 검증이 미사용 컴퓨팅 자원을 활용할 수 있는 메모리 대역폭 제한 (memory-bound) 영역에서 연산 제한 (compute-bound) 영역으로 이동하기 때문입니다. 따라서 RL 롤아웃을 가속화하려면 진화하는 정책으로부터 생성되는 길고 높은 온도의 생성물 하에서도 효과를 유지하는 초안 작성기와, 연산 제한 영역을 피하는 시스템 인지형 (system-aware) SD 활용이 모두 필요합니다. 본 논문에서는 RL 롤아웃의 이러한 격차를 해소하기 위해 설계된 시스템 인지형 자기-SD (self-SD) 프레임워크인 EfficientRollout을 제안합니다. EfficientRollout은 타겟 모델로부터 양자화된 초안 작성기를 유도하여 (즉, 자기 투기적 디코딩), 별도의 초안 작성기 사전 학습이나 온라인 적응 없이도 진화하는 정책과 결합된 상태를 유지합니다. 또한, 수락 인지형 초안 길이 적응 (acceptance-aware draft-length adaptation)과 시스템 인지형 SD 토글 정책을 조정하여, 이점이 있는 영역에서만 투기를 수행하는 동시에 초안 작성 예산을 진화하는 초안 작성기 품질에 맞춥니다. EfficientRollout은 최종 모델 품질을 유지하면서, 가속화된 AR 롤아웃 베이스라인 대비 롤아웃 지연 시간은 최대 19.6%, 엔드 투 엔드 (end-to-end) 지연 시간은 최대 12.7%까지 단축합니다.

AI 자동 생성 콘텐츠

원문 바로가기

EfficientRollout: RL 롤아웃을 위한 시스템 인지형 자기 투기적 디코딩 (Self-Speculative Decoding)

요약

핵심 포인트

댓글