arXiv논문2026. 05. 13. 17:26

AlphaGRPO: 분해 가능한 검증 가능 보상(Decompositional Verifiable Reward)을 통한 UMM에서의 자기 성찰적

요약

본 논문은 Group Relative Policy Optimization (GRPO)을 AR-Diffusion Unified Multimodal Models (UMMs)에 적용한 AlphaGRPO 프레임워크를 제안합니다. 이 접근 방식은 추가적인 콜드 스타트 단계 없이 멀티모달 생성 능력을 향상시키며, 모델이 사용자 의도를 추론하고 출력의 불일치를 자율적으로 수정하는 자기 성찰적 정제(Self-Reflective Refinement) 기능을 활성화합니다. 특히, 복잡한 사용자 요청을 원자적이고 검증 가능한 의미 및 품질 질문으로 분해하여 신뢰성 높은 피드백을 제공하는 '분해 가능한 검증 가능 보상(DVReward)'을 도입함으로써, 실제 세계 멀티모달 생성의 안정적인 지도를 제공합니다.

핵심 포인트

AlphaGRPO는 GRPO를 UMMs에 적용하여 콜드 스타트 없이 멀티모달 생성을 개선한다.
모델이 사용자 의도 추론 및 출력 불일치 진단/수정이 가능한 자기 성찰적 정제 능력을 갖추게 한다.
핵심 기여인 DVReward는 복잡한 요청을 원자적 질문으로 분해하여 신뢰성 높은 피드백을 제공한다.
다양한 멀티모달 생성 벤치마크(GenEval, TIIF-Bench 등)에서 강력한 성능 향상을 입증했다.

본 논문에서 우리는 Group Relative Policy Optimization (GRPO)을 AR-Diffusion Unified Multimodal Models (UMMs)에 적용하는 새로운 프레임워크인 AlphaGRPO를 제안합니다. 이를 통해 추가적인 콜드 스타트(cold-start) 단계 없이 멀티모달 생성 능력을 향상시킵니다. 우리의 접근 방식은 모델이 고급 추론 작업을 수행할 수 있는 내재적 잠재력, 즉 암묵적인 사용자 의도를 능동적으로 추론하는 추론 기반 텍스트-이미지 생성(Reasoning Text-to-Image Generation)과 생성된 출력의 불일치를 자율적으로 진단하고 수정하는 자기 성찰적 정제(Self-Reflective Refinement)를 잠금 해제합니다. 실제 세계 멀티모달 생성을 위한 안정적인 지도 제공이라는 과제를 해결하기 위해, 우리는 분해 가능한 검증 가능 보상(Decompositional Verifiable Reward, DVReward)을 도입합니다. 전체론적 스칼라 보상과 달리, DVReward는 LLM을 활용하여 복잡한 사용자 요청을 원자적이고 검증 가능한 의미 및 품질 질문으로 분해하고, 이를 일반 MLLM이 평가하여 신뢰할 수 있고 해석 가능한 피드백을 제공합니다. 광범위한 실험은 AlphaGRPO가 GenEval, TIIF-Bench, DPG-Bench, WISE를 포함한 멀티모달 생성 벤치마크 전반에 걸쳐 강력한 개선을 달성하며, 또한 편집 작업에 대한 훈련 없이 GEdit의 편집 작업에서도 상당한 이득을 얻는다는 것을 보여줍니다. 이러한 결과는 우리의 자기 성찰적 강화학습(self-reflective reinforcement) 접근 방식이 내재된 이해를 효과적으로 활용하여 고충실도 생성을 안내한다는 것을 검증합니다. 프로젝트 페이지: https://huangrh99.github.io/AlphaGRPO/

AI 자동 생성 콘텐츠

원문 바로가기

AlphaGRPO: 분해 가능한 검증 가능 보상(Decompositional Verifiable Reward)을 통한 UMM에서의 자기 성찰적

요약

핵심 포인트

댓글