Edit-R1: 이미지 편집을 위한 추론 검증기 기반 강화학습
요약
Edit-R1은 단순 점수 평가를 넘어, 지시사항을 검증 가능한 원칙으로 분해하는 체인 오브 스캣(Chain-of-Thought) 검증기를 활용하여 이미지 편집을 수행하는 새로운 방법론입니다. 이 모델은 GRPO(Generalized Reward Policy Optimization)를 사용하여 미세한 보상(fine-grained rewards) 기반으로 편집 모델을 훈련시키며, 기존의 Seed-1.5-VL보다 성능이 우수하고 최대 7B 규모까지 확장 가능합니다.
핵심 포인트
- 이미지 편집에 체인 오브 스캣(Chain-of-Thought) 검증기를 도입하여 지시사항을 원칙 기반으로 분해함.
- GRPO를 활용한 미세 보상(fine-grained rewards) 훈련 방식을 통해 모델의 정교함을 높임.
- 기존 SOTA 모델인 Seed-1.5-VL 대비 성능 향상을 입증함.
- 모델 크기를 최대 7B 규모까지 확장하여 범용성을 확보함.
단순 점수평가기를 넘어, 지시사항을 검증 가능한 원칙으로 분해하는 체인 오브 스캣 (chain-of-thought) 검증기를 통해 이미지를 편집합니다. GRPO 를 사용하여 미세한 보상 (fine-grained rewards) 을 적용하여 편집 모델을 훈련시키며, Seed-1.5-VL 을 능가하고 7B 규모까지 확장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기