단일 단계 생성 모델을 위한 드리프팅 선호도 최적화 (Drifting Preference Optimization)
요약
단일 단계 텍스트-이미지 생성기를 위한 새로운 온라인 선호도 미세 조정 방법론인 DrPO를 제안합니다. 미분 불가능한 보상 모델을 사용하면서도 참조 드리프트를 활용해 특징 공간을 업데이트함으로써 효율적인 정렬을 달성합니다.
핵심 포인트
- 단일 단계 생성기를 위한 온라인 선호도 미세 조정(DrPO) 제안
- 미분 불가능하거나 블랙박스 형태의 보상 모델 사용 가능
- HPSv3 학습 시 연산량을 약 3.51배 감소시켜 효율성 증대
- SD-Turbo 및 SDXL-Turbo 벤치마크에서 우수한 정렬 성능 입증
단일 단계 (One-step) 텍스트-이미지 생성기 (text-to-image generators)는 단 한 번의 순방향 패스 (forward pass)로 이미지를 생성하기 때문에 배포 측면에서 매력적이지만, 이를 선호도 미세 조정 (preference finetuning)하는 것은 여전히 어렵습니다. 표준 정렬 (alignment) 방법들은 종종 정책 가능도 (policy likelihoods), 디노이징 궤적 (denoising trajectories), 미분 가능한 보상 그래디언트 (differentiable reward gradients), 또는 테스트 시간 최적화 (test-time optimization)에 의존하기 때문입니다. 본 논문에서는 결정론적 단일 단계 생성기 (deterministic one-step generators)를 위한 온라인 선호도 미세 조정 (online preference-finetuning) 방법인 드리프팅 선호도 최적화 (Drifting Preference Optimization, DrPO)를 제안합니다. 각 프롬프트 (prompt)에 대해, DrPO는 현재 생성기에서 후보군을 샘플링하고, 타겟 보상 (target reward)을 통해 이들의 순위를 매기며, 높은 점수와 낮은 점수를 받은 샘플을 사용하여 특징 공간 (feature-space) 업데이트 방향을 합성합니다. 이 업데이트는 비매개변수적 쌍극자 선호도 필드 (non-parametric dipole preference field)와 동결된 베이스 생성기 (frozen base generator)로부터 추정된 참조 드리프트 (reference drift)의 결합이며, 분리된 특징 공간 회귀 타겟 (detached feature-space regression target)을 통해 최적화됩니다. 타겟 보상은 순위를 매기는 용도로만 사용되므로, DrPO는 추론 시 단일 생성기 호출을 유지하면서도 거대하거나 블랙박스 형태인, 또는 미분 불가능한 보상을 사용하여 학습할 수 있습니다. 우리는 다양한 타겟 보상과 HPSv3 및 GenEval을 포함한 벤치마크를 통해 SD-Turbo 및 SDXL-Turbo에서 DrPO를 평가합니다. DrPO는 보상 그래디언트가 없는 (reward-gradient-free) 단일 단계 선호도 베이스라인보다 정렬 성능을 향상시키며, 보상 모델의 역전파 (backpropagation)를 제거함으로써 매칭된 유효 배치 (effective-batch) 설정 하에서 HPSv3 학습 연산량을 $3.51 imes$ 감소시킵니다. 초기 오프라인 실험 결과는 샘플 기반 그래디언트 합성 (sample-based gradient synthesis)이 온라인 보상 순위 매기기 이외의 용도로도 사용될 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기