arXiv논문2026. 06. 26. 12:13

DanceOPD: 온폴리시 생성 필드 증류 (On-Policy Generative Field Distillation)

요약

DanceOPD는 이미지 생성 모델의 T2I, 로컬/글로벌 편집 능력을 통합하기 위한 온폴리시 생성 필드 증류 프레임워크입니다. flow-matching 모델을 기반으로 각 능력을 속도 필드로 정의하여, 모델이 다양한 생성 능력을 충돌 없이 학습하도록 돕습니다.

핵심 포인트

T2I와 편집 능력 간의 성능 충돌 문제 해결
flow-matching 모델을 위한 온폴리시 생성 필드 증류 프레임워크 제안
각 능력을 공유된 flow 상태 공간의 속도 필드로 정의
CFG와 같은 연산자 기반 필드도 효과적으로 흡수 가능
앵커 생성 품질을 유지하며 다중 능력 구성 능력 개선

현대의 이미지 생성(image generation)은 텍text-to-image (T2I), 로컬 편집(local editing), 그리고 글로벌 편집(global editing)을 포함한 다양한 능력을 통합하는 단일 모델을 요구합니다. 그러나 이러한 능력들은 자연스럽게 정렬되는 경우가 드물며 종종 서로 충돌합니다. 예를 들어, 편집(editing)은 T2I 성능을 저하시키는 경향이 있는 반면, 글로벌 편집과 로컬 편집은 서로 간섭합니다. 결과적으로, 이러한 능력들을 효과적으로 구성하는 것은 이미지 생성 모델 학습의 핵심 과제가 되었습니다. 이를 해결하기 위해, 우리는 flow-matching 모델을 위한 온폴리시 생성 필드 증류(on-policy generative field distillation) 프레임워크인 DanceOPD를 소개합니다. 이 프레임워크는 각 샘플을 하나의 능력 필드(capability field)로 라우팅하고, 저노이즈(low-noise) 학생 모델 유도 상태(student-induced state)를 하나 쿼리하며, 단순한 속도 MSE(velocity MSE) 목적 함수로 학습합니다. 각 능력 소스를 공유된 flow 상태 공간(flow state space) 상의 속도 필드(velocity field)로 정의함으로써, 학생 모델은 자신의 롤아웃 상태(rollout states)에서 쿼리된 필드로부터 학습하여 전문가의 능력을 구성합니다. 이 공식화는 classifier-free guidance (CFG)와 같이 연산자에 의해 정의된 필드도 흡수합니다. T2I, 편집, 리얼리즘 필드 흡수(realism-field absorption), 그리고 CFG 흡수에 대한 종합적인 실험을 통해, 우리의 접근 방식이 다중 능력 구성(multi-capability composition)을 개선하며, 앵커 생성 품질(anchor generation quality)을 보존하면서 타겟 능력을 강화함을 보여줍니다. 우리는 이 연구가 flow-matching 모델에서의 생성 필드 증류를 위한 실질적인 경로를 구축한다고 믿습니다.

AI 자동 생성 콘텐츠

원문 바로가기

DanceOPD: 온폴리시 생성 필드 증류 (On-Policy Generative Field Distillation)

요약

핵심 포인트

댓글