arXiv논문2026. 06. 26. 10:52

동적 보상 최적화를 통한 다중 참조 이미지 생성의 확장

요약

다중 참조 이미지 생성(MRIG)의 한계를 극복하기 위해 새로운 벤치마크인 OmniRef-Bench와 2단계 학습 프레임워크인 DyRef를 제안합니다. DyRef는 동적 보상 최적화를 통해 복잡한 참조 이미지 시나리오에서 모델의 성능과 일반화 능력을 크게 향상시킵니다.

핵심 포인트

복잡한 MRIG 시나리오 평가를 위한 OmniRef-Bench 도입
2단계 학습 프레임워크 DyRef 제안
난이도 인지 이점 재가중(DAR)을 통한 최적화 목표 조정
판별적 보상 스케일링(DRS)으로 정책 최적화 효율 증대
오픈 소스 모델의 다중 참조 이미지 생성 성능 대폭 개선

개인화된 이미지 생성 (Personalized image generation) 기술이 놀라운 발전을 이루었지만, 다중 참조 이미지 생성 (Multi-Reference Image Generation, MRIG)은 여전히 도전적인 과제로 남아 있습니다. 기존의 대부분의 벤치마크는 복잡한 MRIG 시나리오를 적절하게 평가하지 못하며, 이는 이 분야의 추가적인 발전을 저해하고 있습니다. 복잡한 MRIG 작업에 대한 모델 성능을 더 잘 평가하기 위해, 우리는 참조 이미지 유형의 복잡한 조합과 방대한 수의 참조 이미지를 다루는 벤치마크인 OmniRef-Bench를 소개합니다. OmniRef-Bench를 통한 평가 결과, 주요 오픈 소스 모델들은 복잡한 MRIG 시나리오에서 어려움을 겪고 있으며, 혼합 유형의 참조 이미지 수가 증가함에 따라 성능이 크게 저하됨을 보여줍니다. 이 문제를 해결하기 위해, 우리는 2단계 학습 프레임워크인 DyRef를 제안합니다. 첫 번째 단계에서는 지도 미세 조정 (Supervised Fine-Tuning, SFT)을 통해 모델에 복잡한 MRIG 작업을 처리할 수 있는 기본 능력을 부여합니다. 두 번째 단계에서는 난이도 인지 이점 재가중 (Difficulty-aware Advantage Reweighting, DAR)과 판별적 보상 스케일링 (Discriminative Reward Scaling, DRS)을 도입합니다. DAR은 다수의 혼합 유형 참조 이미지를 처리할 때 성능을 향상시키기 위해 최적화 목표를 동적으로 조정합니다. DRS는 더 효과적인 정책 최적화 (Policy Optimization)를 위해 그룹 내 보상 차이를 확대합니다. 실험을 통해 DyRef가 OmniRef-Bench 및 단일 이미지 편집 벤치마크에서 오픈 소스 모델의 성능을 크게 향상시킴을 입증하였으며, 우리 방식의 효과성과 일반화 능력을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

동적 보상 최적화를 통한 다중 참조 이미지 생성의 확장

요약

핵심 포인트

댓글