arXiv논문2026. 06. 30. 14:16

FlowAWR: Advantage-Weighted Rectification을 통한 온라인 적응형 플로우 강화학습

요약

FlowAWR은 연속 공간에서 생성형 플로우 모델을 온라인 강화학습으로 정렬하는 새로운 패러다임을 제안합니다. SDE 샘플러와 CFG 없이도 이론적으로 최적화된 속도장을 도출하여 수렴 속도와 정렬 성능을 크게 향상시켰습니다.

핵심 포인트

SDE-free 및 CFG-free 생성 구현 가능
DiffusionNFT 대비 2~5배 빠른 수렴 가속화 달성
다중 보상 제약 하에서도 안정적인 도메인 외 성능 유지
이론적으로 최적화된 속도장을 향한 지도 회귀 방식 채택

연속 공간(continuous spaces)에서 온라인 강화학습 (RL)을 통해 생성형 플로우 모델 (generative flow models)을 정렬하는 것은 다루기 힘든 궤적 가능도 (intractable trajectory likelihoods)에 의해 제약을 받습니다. 기존의 밀도 근사 정책 경사 (density-approximated policy gradient) 방법들은 다루기 쉬운 전이 커널 (transition kernels)을 구축하기 위해 확률적 SDE 샘플러 (stochastic SDE samplers)에 의존하며, 이는 훈련-추론 불일치 (training-inference inconsistencies)를 유발하고 Classifier-Free Guidance (CFG)를 필요로 합니다. DiffusionNFT와 같은 암시적 프레임워크 (implicit frameworks)는 순방향 프로세스 속도장 (forward-process velocity fields)을 직접 최적화하지만, 이들의 휴리스틱한 고정 크기 보정 (heuristic fixed-magnitude corrections)은 최적화 강도가 그룹 내 상대적 품질에 따라 조절되는 것을 방해합니다.

우리는 연속 생성 정책 최적화 (continuous generative policy optimization)를 이론적으로 최적화된 속도장 (velocity field)을 향한 지도 회귀 (supervised regression)로 재구성하는 패러다임인 extit{Flow Advantage-Weighted Rectification} ( extbf{FlowAWR})을 제안합니다. KL 제약 보상 최대화 (KL-constrained reward maximization)의 최적 정책에서 시작하여, FlowAWR은 크기 인지적이고 Advantage-Weighted Rectification 형태를 허용하는 최적 속도장을 도출하며, 이를 통해 SDE-free 최적화와 CFG-free 생성을 구현합니다. SD3.5-Medium에 대한 비교 평가에서, FlowAWR은 DiffusionNFT 대비 2배에서 5배의 수렴 가속화와 함께 향상된 정렬 성능을 달성했습니다 (예: DiffusionNFT가 2.0k 단계에서 23.82 PickScore를, FlowGRPO가 >4k 단계에서 23.50 PickScore를 기록할 때, FlowAWR은 1.2k 단계에서 24.12 PickScore에 도달함). 다중 보상 제약 (multi-reward constraints) 하에서도 FlowAWR은 구조적 규칙을 충족하면서 안정적인 도메인 외 (out-of-domain) 성능을 유지하며 생성 품질을 지속시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

FlowAWR: Advantage-Weighted Rectification을 통한 온라인 적응형 플로우 강화학습

요약

핵심 포인트

댓글