분포 기반 보상을 통한 시각적 생성 모델의 최적화
요약
시각적 생성 모델의 모드 붕괴와 보상 해킹 문제를 해결하기 위해 분포 기반 보상을 사용하는 새로운 프레임워크를 제안합니다. 서브셋 교체 전략을 통해 계산 효율성을 높였으며, 실험 결과 FID 지표와 샘플 다양성을 크게 개선했습니다.
핵심 포인트
- 샘플 단위가 아닌 분포 기반 보상으로 이미지 다양성 확보
- 서브셋 교체 전략을 통한 보상 추정 계산 비용 절감
- 사후 모델 병합 계수 최적화로 학습-추론 불일치 완화
- SiT 및 EDM2 모델에서 FID-50K 성능 대폭 향상
시각적 생성 (visual generation)을 위한 기존의 강화학습 (reinforcement learning) 전략은 일반적으로 샘플 단위 보상 함수 (sample-wise reward functions)를 사용하지만, 이러한 방식은 이미지 다양성을 저해하고 시각적 이상 현상을 유발하는 보상 해킹 (reward hacking)을 빈번하게 초래합니다. 이러한 한계를 해결하기 위해, 우리는 실제 데이터 분포와의 더 나은 정렬 (alignment)을 보장하기 위해 분포 기반 보상 (distribution-wise rewards)을 사용하여 생성 모델을 미세 조정 (finetuning)하는 새로운 프레임워크를 제시합니다. 샘플을 개별적으로 평가하는 보상과 달리, 분포 기반 보상은 샘플의 데이터 분포를 고려하여, 모든 샘플이 독립적으로 동일한 방향을 향해 최적화될 때 발생하는 모드 붕괴 (mode collapse) 문제를 완화합니다. 이러한 보상을 추정하는 데 드는 과도한 계산 비용을 극복하기 위해, 우리는 생성된 참조 세트의 작은 서브셋 (subset)만을 업데이트함으로써 효율적으로 보상 신호를 제공하는 서브셋 교체 (subset-replace) 전략을 도입합니다. 또한, 우리는 일반적인 강화학습 (RL) 관행에서 확률 미분 방정식 (SDE)을 도입함으로써 발생하는 학습-추론 불일치 (train-inference inconsistency)를 잠재적으로 완화하기 위해, 사후 모델 병합 계수 (post-hoc model merging coefficients)를 최적화하는 데 RL을 적용합니다. 광범위한 실험 결과, 우리의 접근 방식은 다양한 베이스 모델에 대해 FID-50K를 SiT의 경우 8.30에서 5.77로, EDM2의 경우 3.74에서 3.52로 크게 개선함을 보여줍니다. 정성적 평가 또한 우리의 방법이 샘플 다양성을 유지하면서 지각적 품질 (perceptual quality)을 향상시킨다는 것을 확인시켜 줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기