arXiv논문2026. 05. 21. 10:52

Linear-DPO: 확산(Diffusion) 및 흐름 매칭(Flow-Matching) 생성 모델을 위한 선형 직접 선호 최적화 (Linear

요약

본 논문은 기존 DPO 방식이 텍스트-이미지 생성 모델의 흐름 매칭(Flow-matching)을 충분히 반영하지 못하고 목적 함수 불일치 문제를 겪는 점을 지적합니다. 이를 해결하기 위해 확산 및 흐름 매칭 모델을 모두 아우르는 통합 SDE 프레임워크를 기반으로, 시그모이드 대신 선형 유틸리티를 사용하는 Linear-DPO를 제안합니다. 실험 결과 SD1.5, SDXL, SD3-Medium 모델 모두에서 기존 방식보다 우수한 성능을 입증했습니다.

핵심 포인트

기존 DPO의 텍스트-이미지 생성 적용 시 발생하는 목적 함수 불일치(Objective mismatch) 문제 해결
확산(Diffusion)과 흐름 매칭(Flow-matching)을 통합하는 역시간 확률 미분 방정식(SDE) 프레임워크 도입
시그모이드 기반 유틸리티를 지속적인 선형 유틸리티(Linear utility)로 대체하여 최적화 효율 개선
EMA로 업데이트된 참조 모델(Reference model) 통합을 통한 성능 향상
SD1.5, SDXL, SD3-Medium 등 다양한 생성 모델에서의 우수성 검증

직접 선호 최적화 (Direct Preference Optimization, DPO)는 거대 언어 모델 (LLMs)의 정렬 (Alignment) 작업에서 성공을 거두었으나, 텍스트-이미지 생성 (Text-to-image generation) 분야에서는 여전히 과제에 직면해 있습니다. 기존 연구들은 흐름 매칭 (Flow-matching)을 간과한 채 노이즈 제거 확산 모델 (Denoising diffusion models)에 국한되어 있으며, 이산적인 NLP 기반의 DPO를 회귀 기반 (Regression-based) 생성 작업에 적용할 때 목적 함수 불일치 (Objective mismatch) 문제를 겪습니다. 본 논문에서는 통합된 역시간 확률 미분 방정식 (Unified reverse-time SDE) 프레임워크를 통해 확산 (Diffusion)과 흐름 매칭 (Flow-matching)을 모두 아우르는 일반화된 DPO 목적 함수를 도출하며, 그래디언트 (Gradient) 관점에서 표준 DPO 목적 함수가 텍스트-이미지 생성에 최적화되어 있지 않음을 지적합니다. 이에 따라, 우리는 공격적인 시그모이드 (Sigmoid) 기반 유틸리티 함수를 지속적인 선형 유틸리티 (Linear utility)로 대체하고 EMA로 업데이트된 참조 모델 (Reference model)을 통합한 Linear-DPO를 제안합니다. 확산 모델 (SD1.5, SDXL) 및 흐름 매칭 모델 (SD3-Medium)에 대한 정성적 및 정량적 실험을 통해, 기존 베이스라인 (Baselines) 대비 우리 방식의 우수성을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Linear-DPO: 확산(Diffusion) 및 흐름 매칭(Flow-Matching) 생성 모델을 위한 선형 직접 선호 최적화 (Linear

요약

핵심 포인트

댓글