분포 기반 보상을 통한 시각적 생성 모델의 최적화

시각적 생성 (visual generation)을 위한 기존의 강화학습 (reinforcement learning) 전략은 일반적으로 샘플 단위 보상 함수 (sample-wise reward functions)를 사용하지만, 이러한 방식은 이미지 다양성을 저해하고 시각적 이상 현상을 유발하는 보상 해킹 (reward hacking)을 빈번하게 초래합니다. 이러한 한계를 해결하기 위해, 우리는 실제 데이터 분포와의 더 나은 정렬 (alignment)을 보장하기 위해 분포 기반 보상 (distribution-wise rewards)을 사용하여 생성 모델을 미세 조정 (finetuning)하는 새로운 프레임워크를 제시합니다. 샘플을 개별적으로 평가하는 보상과 달리, 분포 기반 보상은 샘플의 데이터 분포를 고려하여, 모든 샘플이 독립적으로 동일한 방향을 향해 최적화될 때 발생하는 모드 붕괴 (mode collapse) 문제를 완화합니다. 이러한 보상을 추정하는 데 드는 과도한 계산 비용을 극복하기 위해, 우리는 생성된 참조 세트의 작은 서브셋 (subset)만을 업데이트함으로써 효율적으로 보상 신호를 제공하는 서브셋 교체 (subset-replace) 전략을 도입합니다. 또한, 우리는 일반적인 강화학습 (RL) 관행에서 확률 미분 방정식 (SDE)을 도입함으로써 발생하는 학습-추론 불일치 (train-inference inconsistency)를 잠재적으로 완화하기 위해, 사후 모델 병합 계수 (post-hoc model merging coefficients)를 최적화하는 데 RL을 적용합니다. 광범위한 실험 결과, 우리의 접근 방식은 다양한 베이스 모델에 대해 FID-50K를 SiT의 경우 8.30에서 5.77로, EDM2의 경우 3.74에서 3.52로 크게 개선함을 보여줍니다. 정성적 평가 또한 우리의 방법이 샘플 다양성을 유지하면서 지각적 품질 (perceptual quality)을 향상시킨다는 것을 확인시켜 줍니다.

Insights

분포 기반 보상을 통한 시각적 생성 모델의 최적화

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실