arXiv논문2026. 06. 17. 11:39

STAR: 텍스트-이미지 RL 사후 학습을 위한 시공간 적응형 보상 할당

요약

텍스트-이미지 생성 모델의 RL 사후 학습 시 발생하는 보상 할당 문제를 해결하기 위해 시공간 적응형 보상(STAR) 방식을 제안합니다. STAR는 디노이징 단계와 공간적 특성에 따라 보상을 동적으로 할당하여 텍스트 정렬 및 생성 품질을 개선합니다.

핵심 포인트

기존 RL 사후 학습의 단일 스칼라 보상 할당 문제 해결
텍스트-이미지 어텐션을 활용한 시공간 적응형 보상(STAR) 제안
추가 오버헤드 없이 관련 잠재 영역에 효율적인 정책 업데이트 적용
Stable Diffusion 3.5 Medium 기반 GenEval, OCR, PickScore 성능 향상

텍스트-이미지 생성(text-to-image generation)을 위한 기존의 RL 사후 학습(post-training) 방법들은 대개 최종 이미지 보상(reward)을 단일 스칼라 어드밴티지(scalar advantage)로 변환하여 전체 생성 궤적(generative trajectory)에 동일한 강도로 적용합니다. 그러나 텍스트-이미지 생성은 본질적으로 시간적 및 공간적 구조를 가집니다. 즉, 서로 다른 디노이징 단계(denoising steps)가 서로 다른 생성 단계에 책임을 지며, 텍스트 정렬(text alignment)을 진정으로 결정하는 콘텐츠는 종종 이미지의 일부에만 나타납니다. 이러한 입도 불일치(granularity mismatch)는 정책 업데이트(policy updates)가 보상에 실제로 영향을 미치는 생성 구성 요소에 집중하는 것을 어렵게 만듭니다. 이 문제를 해결하기 위해, 우리는 텍스트-이미지 확산 모델(diffusion models) 및 플로우 모델(flow models)의 RL 사후 학습을 위한 extbf{시공간 적응형 보상(SpatioTemporal Adaptive Reward, STAR) 할당}을 제안합니다. STAR는 생성 모델 내부의 텍스트-이미지 어텐션(text-image attention)을 사용하며, 프롬프트에서 사용자가 진정으로 관심을 갖는 핵심 콘텐츠로부터 시작합니다. STAR는 디노이징 단계와 롤아웃(rollouts)에 따라 동적으로 변하는 공간 할당 맵(spatial allocation maps)을 구축하며, 거의 추가적인 계산 오버헤드 없이 더 관련성이 높은 잠재 영역(latent regions)에 동일한 그룹 상대적 어드밴티지(group-relative advantage)를 할당합니다. 그런 다음 STAR는 공간적으로 분해된 정책 목적 함수(spatially resolved policy objective)를 통해 이러한 영역에 더 강력한 정책 업데이트를 적용합니다. 우리는 Stable Diffusion 3.5 Medium을 베이스 모델로 사용하며 GenEval, OCR 텍스트 렌더링, PickScore의 세 가지 작업에서 평가를 수행합니다. 실험 결과에 따르면 STAR는 외부 보상 소스를 변경하지 않고도 구성적 의미론적 정렬(compositional semantic alignment), 텍스트 렌더링 및 선호도 최적화(preference optimization)를 개선하여 GenEval, OCR, PickScore에서 각각 $\mathbf{0.9759}$, $\mathbf{0.9757}$, $\mathbf{23.60}$을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

STAR: 텍스트-이미지 RL 사후 학습을 위한 시공간 적응형 보상 할당

요약

핵심 포인트

댓글