arXiv논문2026. 06. 10. 12:15

Flow-DPPO: Flow Matching 모델을 위한 Divergence Proximal Policy Optimization

요약

Flow Matching 모델의 정렬을 개선하기 위해 기존 PPO의 ratio clipping 방식 대신 KL 발산을 직접 제어하는 Flow-DPPO를 제안합니다. 가우시안 분포 특성을 활용해 정확한 KL 발산을 계산하며, 비대칭 발산 마스크를 통해 학습 안정성과 보상을 높였습니다.

핵심 포인트

기존 ratio clipping의 구조적 부적합성 해결
가우시안 분포 기반의 정확하고 저렴한 KL 발산 계산
비대칭 발산 마스크를 통한 안정적인 그래디언트 업데이트
파괴적 망각 완화 및 다중 목적 최적화 촉진

최근 연구들은 온라인 강화학습 (RL)이 이미지 및 비디오 생성을 위한 flow matching 모델의 품질과 정렬 (alignment)을 실질적으로 개선할 수 있음을 보여주었습니다. Flow-GRPO 및 CPS와 같은 방법들은 denoising 과정을 마르코프 결정 과정 (Markov Decision Process, MDP)으로 간주하고, 신뢰 영역 (trust region)을 강제하기 위해 PPO 스타일의 ratio clipping을 적용합니다. 그러나 우리는 ratio clipping이 flow 모델에는 구조적으로 부적합하다고 주장합니다. 새로운 정책과 이전 정책 사이의 확률 비율 (probability ratio)은 실제 정책 발산 (policy divergence)에 대한 노이즈가 섞인 단일 샘플 추정치이며, 이로 인해 궤적 (trajectory)의 일부 영역에서는 과도하게 제약되고 다른 영역에서는 제약이 부족해지는 현상이 발생합니다. 우리는 ratio clipping을 divergence proximal constraint로 대체하는 Flow-DPPO (Flow Divergence Proximal Policy Optimization)를 제안합니다. 핵심적인 관찰 결과는 flow 모델에서의 단계별 (per-step) 정책이 가우시안 (Gaussian) 분포를 따른다는 것이며, 이를 통해 이전 정책과 새로운 정책 사이의 KL 발산 (KL divergence)을 정확하고 저렴하게 계산할 수 있습니다. Flow-DPPO는 신뢰 영역에서 벗어남과 동시에 발산 임계값 (divergence threshold)을 위반할 때만 그래디언트 업데이트 (gradient updates)를 차단하는 비대칭 발산 마스크 (asymmetric divergence mask)를 채택합니다. 실험 결과, Flow-DPPO는 더 나은 KL-proximal 효율성과 함께 더 높은 보상 (rewards)을 달성하며, 파괴적 망각 (catastrophic forgetting)을 완화하고, 균형 잡힌 다중 목적 최적화 (multi-objective optimization)를 촉진하며, ratio clipping이 성능을 저하시키는 다중 에포크 (multi-epoch) 학습에서도 안정적인 학습을 가능하게 합니다. 코드와 모델은 https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Flow-DPPO: Flow Matching 모델을 위한 Divergence Proximal Policy Optimization

요약

핵심 포인트

댓글