arXiv논문2026. 06. 26. 11:24

RolloutPipe: 분리된 On-Policy LLM 강화학습에서의 파이프라인화된 Rollout 및 Training 중첩 기술

요약

RolloutPipe는 분리형 아키텍처 기반의 RLVR 시스템에서 롤아웃 생성과 정책 학습을 효율적으로 중첩시키는 프레임워크입니다. CGP와 FGD 기술을 통해 온-폴리시 정확성을 유지하면서도 학습 대기 시간을 획기적으로 단축합니다.

핵심 포인트

롤아웃과 학습 단계를 파이프라이닝하여 GPU 유휴 상태 최소화
CGP 기술로 학습 가능한 그룹을 즉시 트레이너로 디스패치
FGD 정책을 통해 학습 배치를 위한 프런티어 그룹 우선 수락
기존 시스템 대비 롤아웃-학습 종료 시간 최대 42.3% 단축
트레이너 대기 비율을 최대 76%까지 감소

추론을 위한 대규모 언어 모델 (LLM) 사후 학습 (post-training)은 수학적, 논리적, 과학적 과제에 대한 정답 피드백으로부터 모델이 학습하는 검증 가능한 보상을 활용한 강화학습 (RLVR)에 점점 더 의존하고 있습니다. 유연한 자원 할당을 가능하게 하고 이기종 학습 설정을 지원하기 위해, 현대의 RLVR 시스템은 독립적인 GPU 풀(pool) 간에 롤아웃 생성 (rollout generation)과 정책 학습 (policy training)을 분리하는 분리형 아키텍처 (disaggregated architectures)를 채택합니다. 그러나 기존의 동기식 온-폴리시 (on-policy) GRPO (Group Relative Policy Optimization) RLVR 시스템은 전체 롤아웃이 완료된 후에야 학습을 시작하므로, 롤아웃이 진행되는 동안 트레이너 (trainer) GPU 풀이 유휴 상태로 남게 됩니다. 비동기식 RL 파이프라인은 두 단계를 중첩시키지만, 오래된 데이터 (stale data)로 학습해야 한다는 비용이 발생합니다. 이러한 과제를 해결하기 위해, 우리는 분리형 RLVR 시스템을 위한 사후 학습 프레임워크인 RolloutPipe를 제안합니다. RolloutPipe는 고정된 가중치의 롤아웃을 완전한 그룹 파이프라인 (complete-group pipeline)으로 전환하여, 후속 그룹들이 생성되는 동안 학습 가능한 그룹들이 트레이너로 이동할 수 있게 합니다. RolloutPipe는 완전 그룹 파이프라이닝 (complete-group pipelining, CGP)과 프런티어 그룹 디스패치 (frontier-group dispatch, FGD)를 포함한 두 가지 기술을 통해 이를 달성합니다. CGP는 각 학습 가능한 완전 그룹이 생성 완료되는 즉시 트레이너 FIFO로 디스패치하며, FGD는 다음 학습 배치를 형성하는 데 필요한 프런티어 그룹에 대한 요청을 우선적으로 수락하는 롤아웃 노드 상의 허가 정책 (admission policy)으로, 이를 통해 트레이너 준비가 완료된 그룹들이 더 빠르고 안정적으로 도착하게 합니다. 이 설계는 온-폴리시 정확성을 유지하면서 롤아웃이 완료되기 전에 학습을 시작합니다. 4개의 추론 및 과학 벤치마크와 12개의 롤아웃 설정에 대해 Qwen3-1.7B로 평가한 결과, RolloutPipe는 최첨단 롤아웃 및 학습 시스템인 Slime과 비교하여 롤아웃부터 학습 종료까지의 시간 (rollout-to-train-end time)을 30.7%-42.3% 단축하고, 트레이너 대기 비율 (trainer waiting ratio)을 37%-76% 낮추었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

RolloutPipe: 분리된 On-Policy LLM 강화학습에서의 파이프라인화된 Rollout 및 Training 중첩 기술

요약

핵심 포인트

댓글