본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 15:58

DiffusionOPD: Diffusion Models에서의 On-Policy Distillation에 대한 통합적 관점

요약

본 논문은 확산 기반 모델의 다중 작업 학습 문제를 해결하기 위해 Online Policy Distillation (OPD)을 활용한 새로운 패러다임인 DiffusionOPD를 제안합니다. 기존 방법들이 겪던 공동 최적화의 간섭 및 계단식 RL의 망각 문제를 피하면서, 각 작업을 독립적으로 학습시킨 교사 모델의 능력을 학생 모델로 증류하는 방식을 사용합니다. 이론적으로는 OPD 프레임워크를 연속 상태 마르코프 과정으로 확장하여 낮은 분산과 높은 일반성을 가진 폐쇄형 KL 목적 함수를 도출했으며, 실험적으로도 기존 최신 기법들을 능가함을 입증했습니다.

핵심 포인트

  • DiffusionOPD는 확산 모델의 다중 작업 학습을 위한 새로운 패러다임을 제시합니다.
  • 기존 방법들의 문제점(공동 최적화 간섭, 계단식 RL 망각)을 해결하며, 교사-학생 증류 방식을 채택했습니다.
  • 작업별로 독립 학습된 교사 모델의 능력을 학생 모델 롤아웃 궤적을 통해 통합적으로 증류합니다.
  • OPD 프레임워크를 연속 상태 마르코프 과정으로 확장하여 낮은 분산과 높은 일반성을 가진 해석적 KL 목적 함수를 도출했습니다.
  • 실험 결과, DiffusionOPD는 다중 보상 RL 및 계단식 RL 베이스라인을 능가하는 최첨단 성능을 달성했습니다.

강화학습 (Reinforcement learning)은 확산 기반 (diffusion-based) 텍스트-이미지 모델을 개선하기 위한 강력한 도구로 부상했지만, 기존 방법들은 주로 단일 작업 최적화 (single-task optimization)에 국한되어 있습니다. RL을 다중 작업으로 확장하는 것은 매우 어렵습니다. 공동 최적화 (joint optimization)는 작업 간 간섭 (cross-task interference) 및 불균형 문제로 어려움을 겪으며, 계단식 RL (cascade RL)은 번거롭고 치명적 망각 (catastrophic forgetting)이 발생하기 쉽습니다. 우리는 Online Policy Distillation (OPD)에 기반한 확산 모델 (diffusion models)을 위한 새로운 다중 작업 학습 패러다임인 DiffusionOPD를 제안합니다. DiffusionOPD는 먼저 작업별 교사 (task-specific teachers) 모델을 독립적으로 학습시킨 다음, 학생 (student) 모델 자신의 롤아웃 궤적 (rollout trajectories)을 따라 그들의 능력을 통합된 학생 모델로 증류 (distill)합니다. 이는 단일 작업 탐색 (single-task exploration)을 다중 작업 통합 (multi-task integration)으로부터 분리하며, 모든 작업을 처음부터 공동으로 해결해야 하는 최적화 부담을 피하게 해줍니다. 이론적으로, 우리는 OPD 프레임워크를 이산적 토큰 (discrete tokens)에서 연속 상태 마르코프 과정 (continuous-state Markov processes)으로 확장하여, 평균 매칭 (mean-matching)을 통해 확률적 SDE (stochastic SDE)와 결정론적 ODE (deterministic ODE) 정제 (refinement)를 모두 통합하는 폐쇄형 (closed-form) 단계별 KL 목적 함수를 도출합니다. 우리는 이 해석적 그래디언트 (analytic gradient)가 기존의 PPO 스타일 정책 그래디언트 (PPO-style policy gradients)에 비해 더 낮은 분산 (lower variance)과 더 나은 일반성 (better generality)을 제공함을 공식적 및 경험적으로 입증합니다. 광범위한 실험을 통해 DiffusionOPD가 학습 효율성과 최종 성능 모두에서 다중 보상 RL (multi-reward RL) 및 계단식 RL (cascade RL) 베이스라인을 일관되게 능가하며, 평가된 모든 벤치마크에서 최첨단 (state-of-the-art) 결과를 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0