arXiv논문2026. 05. 25. 16:47

PGT: MLLM의 시각적 접지(Visual Grounding) 성능 향상을 위한 절차적 생성 태스크

요약

MLLM의 세밀한 시각적 이해를 돕기 위해 기하학적 도형을 활용한 절차적 생성 태스크(PGT) 프레임워크를 제안합니다. PGT는 시각적 접지 능력과 의미론적 지식을 분리하여 모델의 인지 결함을 진단하고 성능을 향상시킵니다.

핵심 포인트

PGT 프레임워크를 통한 MLLM의 시각적 접지 성능 개선
기하학적 도형을 활용한 조밀한 감독 신호 생성
LLaVA-v1.5-Instruct 사용 시 What'sUp 벤치마크 최대 20% 향상
공간 추론 결함이 아키텍처보다 감독 신호 부족에서 기인함을 입증

멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)의 놀라운 발전에도 불구하고, 이러한 모델들은 여전히 세밀한 이해 (fine-grained understanding) 작업에 어려움을 겪고 있습니다. 본 연구에서는 두 가지 목적을 수행하는 단순한 데이터 중심 프레임워크인 절차적 생성 태스크 (Procedurally Generated Tasks, PGT)를 제안합니다. PGT는 세밀한 시각적 이해를 유도하는 동시에, 인지 실패의 원인을 식별하는 저비용 진단 도구로서의 역할을 합니다. 이미지 위에 모호하지 않은 기하학적 기본 도형 (geometric primitives)을 겹쳐 놓음으로써, PGT는 시각적 접지 (visual grounding) 능력과 의미론적 사전 지식 (semantic priors)을 분리하는 추가적인 조밀한 감독 신호 (dense supervision)를 생성합니다. 관계적, 정량적, 그리고 3D/깊이 (depth) 이해 벤치마크에 대한 광범위한 실험 결과, PGT는 다양한 아키텍처 전반에 걸쳐 놀라운 이득을 가져다주는 것으로 나타났습니다. PGT 데이터로 증강된 LLaVA-v1.5-Instruct를 사용하여 MLLM을 지시어 튜닝 (Instruction tuning)한 결과, 일반적인 인지 능력은 유지하면서도 What'sUp 벤치마크에서 최대 +20%, CV-Bench-2D에서 +13.3%의 향상을 보였습니다. 또한, 최첨단 (state-of-the-art) MLLM을 PGT 데이터로 미세 조정 (finetuning)했을 때 What'sUp에서 최대 +5.5%, CV-Bench-2D에서 +8.3%의 상승을 이끌어냈습니다. 이러한 결과는 PGT가 세밀한 인지의 병목 현상을 효과적으로 해결함을 입증하며, 많은 공간 추론 결함이 내재적인 아키텍처나 해상도 제한보다는 부적절한 감독 신호에서 기인한다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

PGT: MLLM의 시각적 접지(Visual Grounding) 성능 향상을 위한 절차적 생성 태스크

요약

핵심 포인트

댓글