arXiv논문2026. 05. 11. 21:26

Flow-OPD: Flow Matching 모델을 위한 On-Policy Distillation

요약

본 논문은 기존 Flow Matching (FM) 기반의 텍스트-이미지 생성 모델이 직면하는 보상 희소성 및 기울기 간섭 문제를 해결하기 위해 'Flow-OPD'라는 새로운 온-정책 증류(On-Policy Distillation) 사후 훈련 프레임워크를 제안합니다. Flow-OPD는 단일 보상 GRPO 미세 조정을 통해 도메인 특화 교사 모델들을 육성하고, 이를 활용하여 범용적인 텍스트-이미지 모델의 정렬 성능을 향상시킵니다.

핵심 포인트

기존 Flow Matching (FM) 모델은 보상 희소성과 기울기 간섭으로 인해 '시소 효과' 및 보상 해킹 문제를 겪는다.
Flow-OPD는 On-Policy Distillation (OPD) 개념을 FM에 통합한 최초의 통일된 사후 훈련 프레임워크이다.
제안된 방법은 단일 보상 GRPO를 사용하여 도메인 특화 교사 모델들을 효과적으로 육성한다.
Flow-OPD는 기존 방식 대비 높은 성능(예: vanilla GRPO보다 10점 더 높은 점수)을 달성하며 '교사 능가' 효과를 입증했다.

기존의 Flow Matching (FM) 텍스트-이미지 모델들은 다중 작업 정렬(multi-task alignment) 과정에서 두 가지 치명적인 병목 현상을 겪습니다. 첫째는 스칼라 값 보상으로 인해 발생하는 보상 희소성(reward sparsity)이며, 둘째는 이질적인 목표들을 공동 최적화하면서 생기는 기울기 간섭(gradient interference)입니다. 이 두 가지가 결합하여 경쟁하는 지표들의 '시소 효과(seesaw effect)'와 만연한 보상 해킹(reward hacking)을 초래합니다. 대규모 언어 모델 커뮤니티에서 On-Policy Distillation (OPD)의 성공에 영감을 받아, 우리는 Flow Matching 모델에 온-정책 증류(on-policy distillation)를 통합하는 최초의 통일된 사후 훈련 프레임워크인 Flow-OPD를 제안합니다. Flow-OPD는 두 단계의 정렬 전략을 채택합니다. 먼저 단일 보상 GRPO 미세 조정을 통해 도메인 특화 교사 모델(domain-specialized teacher models)들을 육성하여, 각 전문가가 자신의 p

vanilla GRPO보다 10점 더 높은 점수를 받았으며, 이미지 충실도와 인간 선호도 정렬을 유지하고 '교사 능가(teacher-surpassing)' 효과를 나타냈습니다. 이러한 결과는 Flow-OPD가 범용 텍스트-이미지 모델 구축을 위한 확장 가능한 정렬 패러다임을 확립함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Flow-OPD: Flow Matching 모델을 위한 On-Policy Distillation

요약

핵심 포인트

댓글