arXiv논문2026. 06. 23. 11:13

GRPO 자기회귀 텍ext-to-image 사후 학습에서의 성능과 다양성 균형 맞추기

요약

자기회귀 text-to-image 모델의 정렬을 위해 GRPO 스타일의 강화학습 프레임워크 내에서 f-발산(f-divergence)을 분석한 연구입니다. JS 정규화가 참조 정책과의 발산을 효과적으로 제어하여 생성 성능과 다양성 사이의 최적의 균형을 제공함을 입증했습니다.

핵심 포인트

GRPO 기반 T2I 정렬 시 f-발산 프레임워크의 중요성 분석
JS 정규화가 참조 정책에 대한 편향을 완화하고 편차를 억제함
LlamaGen 및 Janus-7B 실험을 통해 생성 다양성과 성능 입증
토큰 수준의 업데이트 재구성을 통한 최적화 트레이드오프 달성

자기회귀 (Autoregressive) text-to-image (T2I) 생성 기술은 최근 급격히 발전했으나, 생성된 이미지를 인간의 선호도에 맞추는 정렬 (alignment) 작업은 여전히 어려운 과제로 남아 있습니다. GRPO 스타일의 온라인 강화학습 (Reinforcement Learning, RL)은 효과적인 프레임워크를 제공하지만, 기존 방법들은 참조 정책 (reference-policy)과의 발산 (divergence)이 정책 최적화에 직접적인 영향을 미침에도 불구하고 이를 고정된 것으로 취급하는 경향이 있습니다. 본 연구에서는 GRPO 스타일의 자기회귀 T2I 정렬을 위해 forward KL, reverse KL, 그리고 JS 발산을 포함하는 통합 f-발산 (f-divergence) 프레임워크 내에서 간과되었던 이 요소를 연구합니다. 우리의 체계적인 이론적 분석은 서로 다른 발산 방식이 토큰 수준의 업데이트를 각기 다른 방식으로 재구성함을 보여줍니다. 특히, 사용된 샘플링된 토큰 형성 (sampled-token shaping) 형태 하에서, JS 정규화 (JS regularization)는 참조 정책에 대한 균등 편향 (uniform bias)을 완화하면서도 큰 편차를 억제함으로써 유리한 트레이드오프 (trade-off)를 달성합니다. LlamaGen 및 Janus-7B에 대한 광범위한 실험 결과, JS 발산은 양호한 생성 다양성을 유지하면서 대부분의 평가 지표에서 가장 강력하거나 매우 경쟁력 있는 최적화 성능을 달성함을 보여줍니다. 코드는 https://github.com/tuoyou-hao/BPD-GRPO 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

GRPO 자기회귀 텍ext-to-image 사후 학습에서의 성능과 다양성 균형 맞추기

요약

핵심 포인트

댓글