DanceOPD: 온폴리시 생성 필드 증류 (On-Policy Generative Field Distillation)
요약
DanceOPD는 이미지 생성 모델의 T2I, 로컬/글로벌 편집 능력을 통합하기 위한 온폴리시 생성 필드 증류 프레임워크입니다. flow-matching 모델을 기반으로 각 능력을 속도 필드로 정의하여, 모델이 다양한 생성 능력을 충돌 없이 학습하도록 돕습니다.
핵심 포인트
- T2I와 편집 능력 간의 성능 충돌 문제 해결
- flow-matching 모델을 위한 온폴리시 생성 필드 증류 프레임워크 제안
- 각 능력을 공유된 flow 상태 공간의 속도 필드로 정의
- CFG와 같은 연산자 기반 필드도 효과적으로 흡수 가능
- 앵커 생성 품질을 유지하며 다중 능력 구성 능력 개선
현대의 이미지 생성(image generation)은 텍text-to-image (T2I), 로컬 편집(local editing), 그리고 글로벌 편집(global editing)을 포함한 다양한 능력을 통합하는 단일 모델을 요구합니다. 그러나 이러한 능력들은 자연스럽게 정렬되는 경우가 드물며 종종 서로 충돌합니다. 예를 들어, 편집(editing)은 T2I 성능을 저하시키는 경향이 있는 반면, 글로벌 편집과 로컬 편집은 서로 간섭합니다. 결과적으로, 이러한 능력들을 효과적으로 구성하는 것은 이미지 생성 모델 학습의 핵심 과제가 되었습니다. 이를 해결하기 위해, 우리는 flow-matching 모델을 위한 온폴리시 생성 필드 증류(on-policy generative field distillation) 프레임워크인 DanceOPD를 소개합니다. 이 프레임워크는 각 샘플을 하나의 능력 필드(capability field)로 라우팅하고, 저노이즈(low-noise) 학생 모델 유도 상태(student-induced state)를 하나 쿼리하며, 단순한 속도 MSE(velocity MSE) 목적 함수로 학습합니다. 각 능력 소스를 공유된 flow 상태 공간(flow state space) 상의 속도 필드(velocity field)로 정의함으로써, 학생 모델은 자신의 롤아웃 상태(rollout states)에서 쿼리된 필드로부터 학습하여 전문가의 능력을 구성합니다. 이 공식화는 classifier-free guidance (CFG)와 같이 연산자에 의해 정의된 필드도 흡수합니다. T2I, 편집, 리얼리즘 필드 흡수(realism-field absorption), 그리고 CFG 흡수에 대한 종합적인 실험을 통해, 우리의 접근 방식이 다중 능력 구성(multi-capability composition)을 개선하며, 앵커 생성 품질(anchor generation quality)을 보존하면서 타겟 능력을 강화함을 보여줍니다. 우리는 이 연구가 flow-matching 모델에서의 생성 필드 증류를 위한 실질적인 경로를 구축한다고 믿습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기