VistaHop: Visual DeepSearch를 위한 멀티홉 시각적 추론 벤치마킹
요약
멀티모달 대규모 추론 모델(MLRM)의 복잡한 시각적 추론 능력을 평가하기 위한 새로운 벤치마크 VistaHop을 소개합니다. 기존 벤치마크가 놓치고 있는 반복적 이미지 조사와 멀티홉 근거 통합 능력을 측정하며, 실험 결과 현재 모델들의 성능이 매우 낮음을 확인했습니다.
핵심 포인트
- 멀티홉 시각적 추론 평가를 위한 VistaHop 벤치마크 제안
- 도구 증강 추론 평가 환경인 VistaArena 개발
- 현존 MLRM 모델들의 시각적 근거 통합 능력 한계 노출
- 최고 성능 모델인 SenseNova-MARS-32B도 24.31%의 낮은 정확도 기록
Visual DeepSearch는 멀티모달 대규모 추론 모델 (MLRM) 에이전트가 이미지 영역을 반복적으로 조사하고, 중간 추론 과정을 시각적 근거에 기반하여 접지(grounding)하며, 긴 추론 체인 전반에 걸쳐 세밀한 단서들을 연결함으로써 복잡한 시각적 질의에 답할 것을 요구합니다. 그러나 기존의 벤치마크들은 주로 단일 단계의 시각적 이해나 정적인 이미지-질의응답 (image-question answering)에 집중되어 있어, 반복적인 이미지 조사, 시각적 앵커 접지 (visual-anchor grounding), 그리고 멀티홉 근거 통합 (multi-hop evidence integration)에 대한 평가는 제한적입니다. 본 연구에서는 Visual DeepSearch에서의 시각 중심 검색 및 멀티홉 시각적 추론을 평가하기 위한 벤치마크인 VistaHop을 소개합니다. VistaHop은 300개의 고해상도 이미지, 25개의 시각적 검색 시나리오, 그리고 모델이 시각적 앵커로부터 근거 체인을 따르거나 여러 이미지 기반 추론 경로를 가로질러 정보를 융합해야 하는 350개의 멀티홉 QA 태스크를 포함합니다. 나아가 우리는 텍스트 검색, 이미지 검색, 이미지 크롭 (image cropping), 그리고 근거 기반 정답 검증을 포함한 도구 증강 추론 (tool-augmented reasoning)을 지원하는 통합 평가 환경인 VistaArena를 개발했습니다. 7개의 대표적인 MLRM을 대상으로 한 실험 결과, 현재 모델들은 VistaHop을 해결하기에는 여전히 갈 길이 멀다는 것을 보여줍니다. 가장 우수한 모델인 SenseNova-MARS-32B는 단 24.31%의 Pass@1을 달성했습니다. 이러한 결과는 시각적 접지 (visual grounding), 근거 재방문 (evidence revisiting), 긴 체인 추론 (long-chain reasoning), 그리고 멀티 앵커 정보 융합 (multi-anchor information fusion)에서의 지속적인 한계를 드러내며, Visual DeepSearch를 위한 더 강력한 벤치마크와 학습 방법의 필요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기