본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 11:11

Sparrow: 대규모 언어 모델의 안정적이고 효율적인 긴 문맥 RL을 위한 희소 롤아웃 (Sparse Rollout)

요약

RLVR 학습 시 긴 문맥 생성 비용을 줄이기 위해 희소 롤아웃(Sparse Rollout)을 활용하는 연구입니다. 토큰별 액터-정책 불일치 통계량을 일정하게 유지하는 동적 스케줄링을 통해 학습 안정성을 확보하고 롤아웃 속도를 최대 2.4배 향상했습니다.

핵심 포인트

  • 희소 롤아웃을 통한 RLVR 계산 비용 절감 연구
  • 액터-정책 불일치 임계값을 활용한 동적 희소성 스케줄링 도입
  • Qwen3 모델 기반 실험에서 최대 2.4배의 속도 향상 달성
  • DistillSparse를 통한 경량 LoRA 기반 증류 기법 제안

강력한 성능에도 불구하고, 검증 가능한 보상을 사용하는 강화학습 (RLVR, Reinforcement Learning with Verifiable Rewards)은 매우 긴 사고 사슬 (COT, Chain of Thought)을 유도하여 계산 비용을 매우 높게 만듭니다. RLVR의 단계별 비용은 긴 문맥의 롤아웃 생성 (rollout generation)에 의해 지배되므로, 희소 어텐션 (sparse attention)은 밀집 롤아웃 (dense rollout)을 가속화할 수 있는 유망한 방법을 제공합니다. 그러나 희소 롤아웃은 정교한 안정성-효율성 트레이드오프 (stability-efficiency tradeoff)를 요구합니다. 지나치게 공격적인 희소성은 붕괴 (collapse)를 초래하는 반면, 지나치게 완만한 희소성은 불충분한 속도 향상을 가져옵니다. 본 연구에서는 희소-밀집 액터-정책 불일치 (sparse-to-dense actor-policy mismatch)를 통해 이 트레이드오프를 연구합니다. 우리는 먼저 희소 롤아웃의 붕괴가 토큰 전반에 걸친 균일한 저하에 의해 발생하는 것이 아님을 관찰했습니다. 즉, 공격적인 희소성 하에서도 대부분의 희소 토큰은 밀집 상태와 완벽하게 일치합니다. 이에 착안하여, 우리는 궤적(trajectory) 전반에 걸쳐 토큰별 액터-정책 불일치의 하위 꼬리 (lower tail)가 임계값 (critical threshold) 이상으로 유지된다면 희소 롤아웃 학습이 안정적으로 유지될 것이라는 가설을 세웠습니다. 우리는 생성 과정 동안 이 꼬리 통계량 (tail statistic)을 일정하게 유지하는 동적 희소성 스케줄 (dynamic sparsity schedule)을 도입하고 우리의 가설을 검증합니다. Qwen3 thinking-family 모델 전반에 걸쳐, 꼬리 불일치 통계량을 일관된 임계값 근처로 유지하면 일반적으로 안정적인 학습이 가능합니다. 그런 다음 우리는 비용 모델 (cost model)을 사용하여 이 불일치 임계값 하에서 최대 속도 향상을 위한 희소성 스케줄을 찾아내었으며, Qwen3-1.7B, Qwen3-4B, Qwen3-8B를 학습할 때 각각 2.2배, 2.4배, 2.0배의 롤아웃 속도 향상을 달성했습니다. 경험적으로, 우리는 이러한 임계값이 더 큰 모델 (Qwen3-14B)과 다른 RL 도메인 (coding)에도 일반화됨을 보여줍니다. 마지막으로, 우리의 분석은 자연스럽게 DistillSparse를 제안하는 동기가 됩니다. 희소 롤아웃에 대한 경량 LoRA 기반 증류 (distillation)를 통해 더 공격적인 희소성이 동일한 희소-밀집 불일치 임계값에 도달할 수 있게 하여 더 높은 속도 향상을 이끌어냅니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0