arXiv논문2026. 06. 25. 11:44

TriViewBench: MLLM의 다중 뷰 구조적 추론을 위한 제어된 복잡도 확장

요약

MLLM의 다중 뷰 구조적 추론 능력을 평가하기 위한 새로운 벤치마크인 TriViewBench를 소개합니다. 18개 모델을 평가한 결과, 복잡도가 높아질수록 성능이 급격히 저하되며 특히 전역적 복구 작업에서 심각한 성능 붕괴가 나타남을 확인했습니다.

핵심 포인트

TriViewBench: 객체 수와 폐쇄 정도를 제어한 3-뷰 시각적 추론 벤치마크
모델 성능은 복잡도에 따라 단조 감소하며, 전역적 복구 작업에서 가장 큰 성능 저하 발생
객체 계수 오류는 단일 뷰의 과소 계수와 다중 뷰의 과다 계수 패턴으로 나타남
CoT 프롬프팅의 효과가 제한적이며, 병목은 추론 전략보다 공간 표현 능력에 있음

멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 표준 시각적 질의응답 (Visual Question Answering, VQA) 벤치마크에서 강력한 성능을 보여주지만, 제어된 구조적 복잡도 하에서의 확장성 (Scalability)은 여전히 잘 이해되지 않고 있습니다. 우리는 객체 수와 폐쇄 (Occlusion)가 명시적으로 매개변수화된 합성 3D 장면으로부터 구축된 제어된 3-뷰 시각적 추론 벤치마크인 TriViewBench를 소개합니다. 이 벤치마크는 1,923개의 장면과 4개의 복잡도 레벨 및 3가지 추론 범주(국소적 결정 (Local Decision), 객체 계수 (Object Counting), 전역적 복구 (Global Recovery))로 구성된 14,000개 이상의 질의응답 (Question-Answer, QA) 쌍을 포함합니다. 우리는 통합된 프롬프팅 프로토콜 하에서 18개의 오픈 소스 및 폐쇄형 MLLM을 평가합니다. 18개 모델 모두 예외 없이 동일한 능력 계층 구조 (Local Decision > Object Counting > Global Recovery)를 보였으며, 성능은 복잡도에 따라 단조롭게 저하되었습니다: 국소적 결정 작업은 완만하게 감소(상대적 하락 12.11%)한 반면, 객체 계수는 실질적으로 저하(59.14%)되었고, 전역적 복구는 심각하게 붕괴(80.02%)되었습니다. 객체 계수에 대한 오류 분석 결과, 메커니즘적으로 독립적인 두 가지 실패 모드가 드러났습니다: 단일 뷰 작업은 폐쇄 맹목 (Occlusion blindness)으로 인한 과소 계수 (Undercounting)가 지배적인 반면, 다중 뷰 작업은 교차 뷰 정체성 혼동 (Cross-view identity confusion)으로 인해 과다 계수 (Overcounting)로 반전됩니다. 사고 사슬 (Chain-of-Thought, CoT) 프롬프팅은 전체적으로 거의 무시할 만한 이점 ($Δ= -0.16 ext{%}$)을 제공하며, 전역적 복구에 미치는 영향은 능력에 의해 강력하게 제한(Capability-gated)됩니다. 이는 병목 현상이 추론 전략보다는 교차 뷰 공간 표현 (Cross-view spatial representation)에 있음을 시사합니다. 이러한 발견은 현재 MLLM의 근본적인 확장성 한계를 드러내며, TriViewBench를 구조적 추론 실패를 분석하기 위한 제어된 진단 프레임워크로 자리매김하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

TriViewBench: MLLM의 다중 뷰 구조적 추론을 위한 제어된 복잡도 확장

요약

핵심 포인트

댓글