Precise: Flow-Matching 모델의 RL 사후 학습을 위한 SDE-일관적 확률적 샘플링
요약
Flow-matching 모델의 강화학습(RL) 성능을 높이기 위해 SDE-일관적 확률적 샘플링 기법인 Precise를 제안합니다. 탐색과 안정성의 균형을 맞추는 SDE 스케줄과 이산화 노이즈를 최소화하는 근사법을 통해 보상 최적화 속도를 획기적으로 개선했습니다.
핵심 포인트
- Flow-matching의 RL 적용을 위한 SDE-일관적 샘플러 Precise 제안
- 탐색과 안정성 사이의 균형을 맞추는 새로운 SDE 스케줄 도출
- 이산화 노이즈를 줄여 데이터 분포로의 안정적인 수렴 보장
- 학습 시간을 최대 53.2% 단축하면서도 최첨단 정렬 성능 달성
강화학습 (RL)은 확산 (Diffusion) 및 Flow-matching 생성기에서 프롬프트 정렬 (Prompt alignment) 및 지각적 품질 (Perceptual quality)을 향상시키는 효과적인 방법이 되었습니다. Flow-matching에 온라인 RL을 적용하기 위한 핵심 단계는 결정론적 샘플링 궤적 (Deterministic sampling trajectory)을 확률적 정책 (Stochastic policy)으로 전환하는 것이며, 이는 일반적으로 역시간 상미분 방정식 (Reverse-time Ordinary Differential Equation, ODE)을 확률 미분 방정식 (Stochastic Differential Equation, SDE)으로 교체함으로써 이루어집니다. 탐색 행동 (Exploration behavior)과 노이즈 제거 역학 (Denoising dynamics)을 제어하는 확률적 샘플러 (Stochastic sampler)는 따라서 정책의 일부이며, 그 설계는 보상 최적화 (Reward optimization) 성능에 상당한 영향을 미칠 수 있습니다. 우리는 샘플러 설계를 두 가지 상호 의존적인 구성 요소로 나눕니다: 적절한 양의 확률적 탐색 (Stochastic exploration)을 선택하는 것과, RL에서 사용되는 적은 단계 수 (Small step counts)에서 결과적으로 발생하는 SDE를 충실하게 이산화 (Discretizing)하는 것입니다. 첫 번째 구성 요소를 해결하기 위해, 우리는 노이즈 제거 과정에서의 탐색과 안정성 사이의 내재적 긴장 관계를 분석하고, 이 둘의 균형을 맞추는 SDE 스케줄 (SDE schedule)을 도출합니다. 이산화 과제에 관해서는, 토이 예시 (Toy example)를 통해 기존 샘플러들이 과도한 이산화 노이즈 (Discretization noise)를 유발하거나 데이터 분포로의 수렴을 보장하지 않는 휴리스틱 규칙 (Heuristic rules)에 의존함으로써 Flow-matching 프로세스에서 벗어날 수 있음을 보여줍니다. 이러한 문제를 해결하기 위해, 우리는 효과적인 탐색과 안정성의 균형을 맞추는 새로운 확률적 샘플러인 Precise를 제안합니다. 결정적으로, Precise는 깨끗한 잠재 후험 평균 (Clean-latent posterior mean)을 고정하는 새로운 근사법을 통해 노이즈 제거 궤적을 SDE-일관적 (SDE-consistent)으로 유지하며, 이를 통해 표준 샘플러의 과도한 노이즈 문제를 해결합니다. 광범위한 실험을 통해 이 공식화가 강화학습을 통한 훨씬 더 빠르고 안정적인 보상 최적화로 이어진다는 것을 입증하였으며, 이전 샘플러들의 최상위 도메인 성능(In-domain performance)과 일치하는 데 필요한 실제 학습 시간 (Wall-clock training time)을 13.1~53.2% 줄이면서도 최첨단 정렬 점수 (예: PickScore, HPSv2.1)를 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기