본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 26. 10:52

동적 보상 최적화를 통한 다중 참조 이미지 생성의 확장

요약

다중 참조 이미지 생성(MRIG)의 한계를 극복하기 위해 새로운 벤치마크인 OmniRef-Bench와 2단계 학습 프레임워크인 DyRef를 제안합니다. DyRef는 동적 보상 최적화를 통해 복잡한 참조 이미지 시나리오에서 모델의 성능과 일반화 능력을 크게 향상시킵니다.

핵심 포인트

  • 복잡한 MRIG 시나리오 평가를 위한 OmniRef-Bench 도입
  • 2단계 학습 프레임워크 DyRef 제안
  • 난이도 인지 이점 재가중(DAR)을 통한 최적화 목표 조정
  • 판별적 보상 스케일링(DRS)으로 정책 최적화 효율 증대
  • 오픈 소스 모델의 다중 참조 이미지 생성 성능 대폭 개선

개인화된 이미지 생성 (Personalized image generation) 기술이 놀라운 발전을 이루었지만, 다중 참조 이미지 생성 (Multi-Reference Image Generation, MRIG)은 여전히 도전적인 과제로 남아 있습니다. 기존의 대부분의 벤치마크는 복잡한 MRIG 시나리오를 적절하게 평가하지 못하며, 이는 이 분야의 추가적인 발전을 저해하고 있습니다. 복잡한 MRIG 작업에 대한 모델 성능을 더 잘 평가하기 위해, 우리는 참조 이미지 유형의 복잡한 조합과 방대한 수의 참조 이미지를 다루는 벤치마크인 OmniRef-Bench를 소개합니다. OmniRef-Bench를 통한 평가 결과, 주요 오픈 소스 모델들은 복잡한 MRIG 시나리오에서 어려움을 겪고 있으며, 혼합 유형의 참조 이미지 수가 증가함에 따라 성능이 크게 저하됨을 보여줍니다. 이 문제를 해결하기 위해, 우리는 2단계 학습 프레임워크인 DyRef를 제안합니다. 첫 번째 단계에서는 지도 미세 조정 (Supervised Fine-Tuning, SFT)을 통해 모델에 복잡한 MRIG 작업을 처리할 수 있는 기본 능력을 부여합니다. 두 번째 단계에서는 난이도 인지 이점 재가중 (Difficulty-aware Advantage Reweighting, DAR)과 판별적 보상 스케일링 (Discriminative Reward Scaling, DRS)을 도입합니다. DAR은 다수의 혼합 유형 참조 이미지를 처리할 때 성능을 향상시키기 위해 최적화 목표를 동적으로 조정합니다. DRS는 더 효과적인 정책 최적화 (Policy Optimization)를 위해 그룹 내 보상 차이를 확대합니다. 실험을 통해 DyRef가 OmniRef-Bench 및 단일 이미지 편집 벤치마크에서 오픈 소스 모델의 성능을 크게 향상시킴을 입증하였으며, 우리 방식의 효과성과 일반화 능력을 보여주었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0