arXiv논문2026. 06. 18. 12:32

보상은 이미 데이터 안에 있었다: 판별기 유도 RL (Discriminator-Guided RL)을 통한 Flow Matching 교정

요약

Flow Matching 모델의 시각적 사실성과 구조적 일관성을 개선하기 위해 판별기 유도 RL(DRL)을 제안합니다. DRL은 인간의 선호도 데이터 없이도 사전 학습된 표현 공간의 판별기 로짓을 보상으로 사용하여 모델의 샘플 품질을 높입니다.

핵심 포인트

매칭 손실과 실제 샘플 품질 사이의 구조적 불일치 해결
판별기 로짓을 KL-정규화된 RL의 보상으로 활용하는 DRL 제안
인간 선호도 데이터 없이도 FID 및 의미론적 FD 지표 대폭 개선
이미지 충실도와 정렬 사이의 더 나은 파레토 프런티어 달성

Score-matching(점수 매칭) 및 flow-matching(흐름 매칭) 모델은 두 가지 목적을 위해 선호도 기반 강화학습 (preference-based reinforcement learning)에 자주 의존합니다. 하나는 주관적 선호도에 맞추는 것이고, 놀랍게도 다른 하나는 매칭 기반 학습이 데이터 자체로부터 학습하도록 의도된 시각적 사실성(visual realism) 및 일관된 객체 구조와 같은 특성을 회복하는 것입니다. 우리는 이것이 구조적 불일치(structural mismatch)를 반영한다고 주장합니다. 매칭 손실(Matching losses)은 학습 시의 주변 분포(marginals) 하에서 속도(velocity) 또는 점수 필드(score field)에 대한 $\ell_2$ 회귀 오차를 측정하는데, 이는 추론 시 샘플 품질을 결정하는 시각적 및 의미론적 특성과 잘 정렬되지 않는 대리 지표(proxy)입니다. 이러한 특성과 정렬된 보상(reward)이 주어진다면, RL은 모델의 자체 샘플을 평가하고 보상 지형(reward landscape)을 직접 따름으로써 이러한 불일치를 우회합니다. 과제는 비용이 많이 들고 데이터의 사실성과 주석가의 성향이 혼재되는 인간의 선호도에 의존하지 않고 이러한 보상을 얻는 것입니다. 우리는 판별기 유도 RL (Discriminator-Guided RL, DRL)을 제안합니다. DRL은 사전 학습된 표현 공간(pretrained representation space)에서 데이터와 베이스 모델 샘플을 구분하도록 판별기(discriminator)를 학습시키며, 그 로짓(logit)을 KL-정규화된 RL (KL-regularized RL)의 보상으로 사용합니다. 사전 학습된 공간은 판별기가 지각적으로 의미 있는 방향으로 제한되도록 하며, 로짓은 데이터와 모델 사이의 로그 가능도 비(log-likelihood ratio)를 추정하는데, 이는 데이터 분포를 목표로 하는 데 최적의 보상입니다. SiT, JiT, REPA, RAE 전반에 걸쳐 DRL은 가이드가 없는 FID (guidance-free FID, 예: SiT에서 $9.38 \to 2.62$)와 의미론적 공간 FD (semantic-space FD, 예: SiT에 대해 DINOv3에서 $88.2 \to 19.3$)를 감소시키며, 모든 백본(backbone)에서 일관된 이득을 보였고, 인간 선호도 학습 없이도 인간 선호도 보상을 개선합니다. 또한 이는 후속 선호도 기반 사후 학습 (preference-based post-training) 하에서 선호도 보상과 이미지 충실도(image fidelity) 사이의 더 나은 파레토 프런티어 (Pareto frontier)를 생성하여, 과포화(oversaturation) 및 과도한 밝기와 같은 저수준 아티팩트(low-level artifacts)를 줄이면서 정렬(alignment)을 높입니다.

AI 자동 생성 콘텐츠

원문 바로가기

보상은 이미 데이터 안에 있었다: 판별기 유도 RL (Discriminator-Guided RL)을 통한 Flow Matching 교정

요약

핵심 포인트

댓글