Gen-VCoT: 확산 기반 RGB 중간 표현을 통한 생성적 시각적 사고 사슬 (Generative Visual
요약
Gen-VCoT는 MLLM의 시각적 추론 과정을 해석 가능한 RGB 이미지 중간 단계로 생성하는 새로운 프레임워크를 제안합니다. 시각적 접지, 기하학적 추론, 의미론적 추론 단계를 통해 공간 및 깊이 관련 질문에서 성능을 크게 향상시켰습니다.
핵심 포인트
- 텍스트 기반 CoT의 한계를 극복하기 위해 시각적 중간 단계(RGB 이미지) 도입
- SAM, Marigold, Qwen2-VL을 활용한 3단계 추론 프로세스 구축
- 공간 및 깊이 관련 질문에서 성능을 각각 25%, 50% 향상
- 작업의 성격에 따라 텍스트 CoT와 시각적 CoT의 성능 차이가 존재함
멀티모달 대규모 언어 모델 (Multimodal Large Language Models, MLLMs)은 시각적 추론에 탁월하지만, 텍스트 기반의 사고 사슬 (Chain-of-Thought, CoT)에 의존하여 해석 가능한 시각적 중간 단계가 부족합니다. 기존 방법들은 불투명한 토큰이나 외부 도구를 사용하며, 핵심적인 속성들을 놓치고 있습니다. 우리는 전문가 비전 모델을 사용하여 추론 중간 단계로서 RGB 이미지를 생성하는 프레임워크인 Gen-VCoT를 제안합니다. 이는 세 가지 단계로 구성됩니다: 시각적 접지 (Visual Grounding, SAM segmentation), 기하학적 추론 (Geometric Reasoning, Marigold depth maps), 그리고 의미론적 추론 (Semantic Reasoning, Qwen2-VL 통합). 적응형 라우터 (Adaptive Router)가 추론의 깊이를 선택합니다. 평가 결과, Gen-VCoT는 공간 (25% 향상) 및 깊이 (50% 향상) 관련 질문에서 성능을 개선하지만, 단순한 사실적 질의에서는 성능이 저하될 수 있습니다. CLEVR 데이터셋에서는 텍스트 CoT가 시각적 중간 단계보다 더 높은 성능을 보였으며 (91.2% vs 62.5%), 이는 작업에 따라 최적의 표현이 달라짐을 보여줍니다. Gen-VCoT는 해석 가능한 멀티모달 추론을 위한 새로운 패러다임을 구축합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기