CGC: Fine-Grained Multi-Image Understanding 을 위한 Compositional Grounded Contrast
요약
본 논문은 다중 모드 대형 언어 모델(MLLMs)이 직면하는 세밀한 다중 이미지 이해의 어려움(공간적 환각, 주의력 누출 등)을 해결하기 위한 저비용 프레임워크인 Compositional Grounded Contrast (CGC)를 제안합니다. CGC는 기존 단일 이미지 기반 주석을 활용하여 Inter-Image Contrast와 Intra-Image Contrast를 도입함으로써 의미론적으로 분리된 방해 요소 컨텍스트와 객체 일관성을 확보하는 구성적 다중 이미지 학습 인스턴스를 구축합니다. 또한, Think-before-Grounding 패러다임에 규칙 기반 공간 보상(Rule-Based Spatial Reward)을 추가하여 소스 이미지 귀속 및 구조화된 출력 유효성을 개선했으며, 다양한 벤치마크에서 우수한 성능 향상을 입증했습니다.
핵심 포인트
- CGC는 세밀한 다중 이미지 이해를 위한 저비용 프레임워크로, 고비용의 인간 주석이나 대규모 CoT 데이터에 의존하지 않습니다.
- Inter-Image Contrast와 Intra-Image Contrast를 도입하여 상호 이미지 판별을 위한 의미론적 분리 및 객체 일관성을 확보합니다.
- Think-before-Grounding 패러다임 하에서 규칙 기반 공간 보상(Rule-Based Spatial Reward)을 추가하여 모델의 추론 정확도와 구조화된 출력 유효성을 높입니다.
- 제안된 CGC는 MIG-Bench, VLM2-Bench 등 다중 이미지 벤치마크뿐만 아니라 MathVista, MMStar 등 다양한 상위 수준의 멀티모달 작업에서도 성능 향상을 입증했습니다.
다중 모드 대형 언어 모델 (MLLMs) 은 빠르게 발전해 왔지만, 여전히 세밀한 다중 이미지 이해 분야에서 공간적 환각 (spatial hallucination), 주의력 누출 (attention leakage), 객체 일관성 유지 실패와 같은 뚜렷한 과제를 직면하고 있습니다. 또한 기존 접근법은 일반적으로 비용이 많이 드는 인간 주석이나 대규모 사슬 사고 (CoT) 데이터 생성에 의존합니다. 우리는 세밀한 다중 이미지 이해 능력을 향상시키기 위한 저비용 전체 프레임워크인 Compositional Grounded Contrast(약어: CGC)를 제안합니다. CGC 는 기존 단일 이미지 기반지 주석을 바탕으로 구축되며, Inter-Image Contrast 와 Intra-Image Contrast 를 통해 상호 이미지 판별을 위한 의미론적으로 분리된 방해 요소 컨텍스트와 객체 일관성을 위한 상관관계 있는 크로스 뷰 샘플을 각각 도입하여 구성적 다중 이미지 학습 인스턴스를 구성합니다. CGC 는 Think-before-Grounding 패러다임 하에서 소스 이미지 귀속, 공간 정렬, 구조화된 출력 유효성을 개선하기 위해 GRPO 프레임워크 내에서 규칙 기반 공간 보상 (Rule-Based Spatial Reward) 을 추가로 도입합니다. 실험 결과, CGC 는 MIG-Bench 와 VLM2-Bench 를 포함한 세밀한 다중 이미지 벤치마크에서 최상위 결과를 달성했습니다. 학습된 다중 이미지 이해 능력은 더 넓은 범위의 다중 모드 이해 및 추론 작업으로도 이전되며, MathVista (+2.90), MuirBench (+2.88), MMStar (+1.93), MMMU (+1.77), BLINK (+1.69) 에서 Qwen3-VL-8B 기본 모델에 비해 일관된 향상을 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기