Spotlight: DiT RL 사후 학습을 위한 시드 탐색(Seed Exploration)과 스팟 GPU(Spot GPUs)의 시너지 활용
요약
DiT RL 사후 학습의 비용 문제를 해결하기 위해 스팟 GPU와 시드 탐색을 결합한 시스템 Spotlight를 제안합니다. 오래된 가중치를 활용한 탐색과 탄력적 시퀀스 병렬성(SP) 재구성을 통해 학습 효율을 극대화합니다.
핵심 포인트
- 스팟 GPU 활용 시 발생하는 유휴 시간 문제를 시드 탐색으로 해결
- 오래된 모델 가중치를 사용해도 탐색의 유효성이 유지됨을 입증
- 탄력적 시퀀스 병렬성(SP)을 통해 GPU 선점 시 복구 시간을 초 미만으로 단축
- 기존 방식 대비 비용을 최대 6.4배 절감하며 학습 속도 4배 향상
Diffusion Transformers (DiTs)의 강화학습 (RL) 사후 학습 (post-training)은 수천 개의 하이엔드 GPU를 필요로 하여 비용이 매우 많이 듭니다. 기존 연구들은 비용을 절감하기 위해 두 가지 방향을 탐색합니다: 시드 탐색 (seed exploration)은 대비가 높은 샘플을 선택하여 학습 수렴을 개선하지만, 임계 경로 (critical path)에 연산 부하를 추가합니다; 스팟 GPU (spot GPUs)는 비용을 6977% 낮춰주지만, DiT 롤아웃 (rollouts)이 거의 동시에 종료되기 때문에 학습 중에 유휴 상태로 머물게 되어, LLM 스타일의 롤아웃과 학습 간 파이프라이닝 (pipelining)을 방해합니다. 또한 스팟 선점 (Spot preemptions)은 시퀀스 병렬성 (Sequence Parallelism, SP) 그룹을 파괴하여 GPU 토폴로지 (topology)를 파편화합니다. 우리는 DiT RL 사후 학습을 위해 스팟 GPU를 활용하는 최초의 시스템인 Spotlight를 선보입니다. Spotlight는 우리가 고안한 두 가지 핵심 통찰에 기반합니다: (1) 탐색은 오래된 모델 가중치 (stale model weights)를 허용할 수 있음을 보여줍니다. 이전 반복 (iteration)의 모델 가중치를 사용하는 탐색은 무작위 시드의 상대적 순위를 보존하므로, 학습 중에 유휴 상태인 스팟 GPU에서 탐색을 실행할 수 있습니다. (2) SP 재구성 (reconfiguration)은 노드 내 상태 (on-node state)를 재사용할 수 있어, 그룹 복구 시간을 분 단위에서 초 미만(sub-second)의 실행으로 단축할 수 있습니다. 이러한 통찰을 바탕으로 Spotlight는 세 가지 기술을 도입합니다: 학습 시간 예산 내에서 보상 분산 (reward variance)을 최대화하는 밴딧 (bandit) 기반 탐색 플래너, 지속적인 스케줄러와 노드 내 가중치 복사 (intra-node weight copying)를 통해 실시간으로 SP 그룹을 재구성하는 탄력적 시퀀스 병렬성 (elastic sequence parallelism), 그리고 부하를 조절하고 선점 시 진행 중인 상태 (in-flight state)를 커밋하는 선점 인지형 풀 기반 요청 스케줄러 (preemption-aware pull-based request scheduler)입니다. 우리는 오픈 소스 RL 플랫폼인 ROLL에 Spotlight를 구현하고 Qwen-Image 사후 학습에서 평가를 진행했습니다. Spotlight는 베이스라인보다 4배 더 빠르게 동일한 목표 검증 점수 (target validation score)에 도달하며, 총 비용을 1.46.4배 절감하는 동시에 $512 imes512$ 및 $1280 imes1280$ 해상도의 DeepSeek-OCR 및 Geneval 데이터셋에서 우수한 이미지 품질을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기