arXiv논문2026. 05. 08. 12:54

Improved techniques for fine-tuning flow models via adjoint matching: a

요약

본 논문은 속도 벡터장 상의 최적 제어 문제로 표현되는 결정론적 아도인트 매칭 프레임워크를 제시합니다. 이 방법은 정책 하에서 가치 기울기를 직접 회귀하여 단순하고 안정적인 학습 목표를 달성할 수 있게 합니다. 또한, 계산 효율성을 높이기 위해 보상 신호가 집중되는 궤적의 말단 부분에만 계산을 수행하는 절단 아도인트 스키마와, 정렬 강도 및 분포 보존 간의 유연한 트레이드오프를 제공하는 일반화된 정규화 기법을 소개합니다.

핵심 포인트

최적 제어 문제 기반의 결정론적 아도인트 매칭 프레임워크를 도입하여 안정적인 학습 목표를 구축했습니다.
계산 비용 절감을 위해 보상 관련 신호가 집중되는 궤적 말단 부분에만 계산하는 '절단 아도인트 스키마'를 제안합니다.
표준 KL 정규화를 넘어, 정렬 강도와 분포 보존 사이의 유연한 트레이드오프를 가능하게 하는 일반화된 프레임워크를 제공합니다.
실험 결과(SiT-XL/2, FLUX.2-Klein-4B)에서 여러 정렬 지표 및 다양성, 모드 보존 측면에서 일관되고 상당한 개선을 입증했습니다.

우리는 속도 벡터장 (velocity fields) 상의 최적 제어 문제 (optimal control problem) 로 표현하는 결정론적 (deterministic) 아도인트 매칭 (adjoint matching) 프레임워크를 제안합니다. 현재 정책 (policy) 하에서 가치 기울기 유도 (value-gradient-induced) 목표값으로 제어를 직접 회귀 (regress) 할 수 있어, 단순하고 안정적인 학습 목표 (training objective) 를 달성할 수 있습니다. 이 관점을 바탕으로, 보상 관련 신호 (reward-relevant signals) 가 집중되는 궤적 (trajectory) 의 말단 부분 (terminal portion) 에 계산에 집중하는 절단 아도인트 스키ーム (truncated adjoint scheme) 을 소개합니다. 이는 정렬 품질을 유지하면서 상당한 계산 비용 절감 (computational savings) 을 제공합니다. 또한, 우리는 표준 KL 기반 정규화 (KL-based regularization) 를 넘어 프레임워크를 일반화하여 정렬 강도와 분포 보존 (distributional preservation) 사이의 유연한 트레이드오프 (trade-offs) 를 가능하게 합니다. SiT-XL/2 와 FLUX.2-Klein-4B 실험은 여러 정렬 지표 (alignment metrics) 에서 일관된 개선과 함께 상당한 다양성 (diversity) 및 모드 보존 (mode preservation) 개선을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Improved techniques for fine-tuning flow models via adjoint matching: a

요약

핵심 포인트

댓글