Spotlight: DiT RL 사후 학습을 위한 시드 탐색(Seed Exploration)과 스팟 GPU(Spot GPUs)의 시너지 활용

Diffusion Transformers (DiTs)의 강화학습 (RL) 사후 학습 (post-training)은 수천 개의 하이엔드 GPU를 필요로 하여 비용이 매우 많이 듭니다. 기존 연구들은 비용을 절감하기 위해 두 가지 방향을 탐색합니다: 시드 탐색 (seed exploration)은 대비가 높은 샘플을 선택하여 학습 수렴을 개선하지만, 임계 경로 (critical path)에 연산 부하를 추가합니다; 스팟 GPU (spot GPUs)는 비용을 6977% 낮춰주지만, DiT 롤아웃 (rollouts)이 거의 동시에 종료되기 때문에 학습 중에 유휴 상태로 머물게 되어, LLM 스타일의 롤아웃과 학습 간 파이프라이닝 (pipelining)을 방해합니다. 또한 스팟 선점 (Spot preemptions)은 시퀀스 병렬성 (Sequence Parallelism, SP) 그룹을 파괴하여 GPU 토폴로지 (topology)를 파편화합니다. 우리는 DiT RL 사후 학습을 위해 스팟 GPU를 활용하는 최초의 시스템인 Spotlight를 선보입니다. Spotlight는 우리가 고안한 두 가지 핵심 통찰에 기반합니다: (1) 탐색은 오래된 모델 가중치 (stale model weights)를 허용할 수 있음을 보여줍니다. 이전 반복 (iteration)의 모델 가중치를 사용하는 탐색은 무작위 시드의 상대적 순위를 보존하므로, 학습 중에 유휴 상태인 스팟 GPU에서 탐색을 실행할 수 있습니다. (2) SP 재구성 (reconfiguration)은 노드 내 상태 (on-node state)를 재사용할 수 있어, 그룹 복구 시간을 분 단위에서 초 미만(sub-second)의 실행으로 단축할 수 있습니다. 이러한 통찰을 바탕으로 Spotlight는 세 가지 기술을 도입합니다: 학습 시간 예산 내에서 보상 분산 (reward variance)을 최대화하는 밴딧 (bandit) 기반 탐색 플래너, 지속적인 스케줄러와 노드 내 가중치 복사 (intra-node weight copying)를 통해 실시간으로 SP 그룹을 재구성하는 탄력적 시퀀스 병렬성 (elastic sequence parallelism), 그리고 부하를 조절하고 선점 시 진행 중인 상태 (in-flight state)를 커밋하는 선점 인지형 풀 기반 요청 스케줄러 (preemption-aware pull-based request scheduler)입니다. 우리는 오픈 소스 RL 플랫폼인 ROLL에 Spotlight를 구현하고 Qwen-Image 사후 학습에서 평가를 진행했습니다. Spotlight는 베이스라인보다 4배 더 빠르게 동일한 목표 검증 점수 (target validation score)에 도달하며, 총 비용을 1.46.4배 절감하는 동시에 $512 imes512$ 및 $1280 imes1280$ 해상도의 DeepSeek-OCR 및 Geneval 데이터셋에서 우수한 이미지 품질을 달성했습니다.

Insights

Spotlight: DiT RL 사후 학습을 위한 시드 탐색(Seed Exploration)과 스팟 GPU(Spot GPUs)의 시너지 활용

요약

핵심 포인트

댓글

워싱턴의 Anthropic 금지 조치가 이번 달 계약업체들에게 영향을 미칩니다

Firecrawl의 새로운 오픈소스 도구 pdf-inspector 출시

모든 스타트업은 'what_the_market_is_telling_us.md'라는 일일 마크다운(markdown) 파일을 가져야 합니다

GPT-5.6 Luna 가격이 3주 만에 80% 하락했습니다. 이것이 에이전트 스택에 초래할 수 있는 가격 책정 버그에 대해 알아보겠습니다.

워싱턴의 Anthropic 금지 조치가 이번 달 계약업체들에게 영향을 미칩니다

Firecrawl의 새로운 오픈소스 도구 pdf-inspector 출시

모든 스타트업은 'what_the_market_is_telling_us.md'라는 일일 마크다운(markdown) 파일을 가져야 합니다

GPT-5.6 Luna 가격이 3주 만에 80% 하락했습니다. 이것이 에이전트 스택에 초래할 수 있는 가격 책정 버그에 대해 알아보겠습니다.