본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 12:54

Improved techniques for fine-tuning flow models via adjoint matching: a

요약

본 논문은 속도 벡터장 상의 최적 제어 문제로 표현되는 결정론적 아도인트 매칭 프레임워크를 제시합니다. 이 방법은 정책 하에서 가치 기울기를 직접 회귀하여 단순하고 안정적인 학습 목표를 달성할 수 있게 합니다. 또한, 계산 효율성을 높이기 위해 보상 신호가 집중되는 궤적의 말단 부분에만 계산을 수행하는 절단 아도인트 스키마와, 정렬 강도 및 분포 보존 간의 유연한 트레이드오프를 제공하는 일반화된 정규화 기법을 소개합니다.

핵심 포인트

  • 최적 제어 문제 기반의 결정론적 아도인트 매칭 프레임워크를 도입하여 안정적인 학습 목표를 구축했습니다.
  • 계산 비용 절감을 위해 보상 관련 신호가 집중되는 궤적 말단 부분에만 계산하는 '절단 아도인트 스키마'를 제안합니다.
  • 표준 KL 정규화를 넘어, 정렬 강도와 분포 보존 사이의 유연한 트레이드오프를 가능하게 하는 일반화된 프레임워크를 제공합니다.
  • 실험 결과(SiT-XL/2, FLUX.2-Klein-4B)에서 여러 정렬 지표 및 다양성, 모드 보존 측면에서 일관되고 상당한 개선을 입증했습니다.

우리는 속도 벡터장 (velocity fields) 상의 최적 제어 문제 (optimal control problem) 로 표현하는 결정론적 (deterministic) 아도인트 매칭 (adjoint matching) 프레임워크를 제안합니다. 현재 정책 (policy) 하에서 가치 기울기 유도 (value-gradient-induced) 목표값으로 제어를 직접 회귀 (regress) 할 수 있어, 단순하고 안정적인 학습 목표 (training objective) 를 달성할 수 있습니다. 이 관점을 바탕으로, 보상 관련 신호 (reward-relevant signals) 가 집중되는 궤적 (trajectory) 의 말단 부분 (terminal portion) 에 계산에 집중하는 절단 아도인트 스키ーム (truncated adjoint scheme) 을 소개합니다. 이는 정렬 품질을 유지하면서 상당한 계산 비용 절감 (computational savings) 을 제공합니다. 또한, 우리는 표준 KL 기반 정규화 (KL-based regularization) 를 넘어 프레임워크를 일반화하여 정렬 강도와 분포 보존 (distributional preservation) 사이의 유연한 트레이드오프 (trade-offs) 를 가능하게 합니다. SiT-XL/2 와 FLUX.2-Klein-4B 실험은 여러 정렬 지표 (alignment metrics) 에서 일관된 개선과 함께 상당한 다양성 (diversity) 및 모드 보존 (mode preservation) 개선을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0