CrossView Suite: 데이터셋, 모델 및 벤치마크를 통한 MLLM의 교차 뷰 공간 지능 활용
요약
MLLM의 단일 뷰 인지 한계를 극복하고 다각도 관점에서의 공간 지능을 구현하기 위한 'CrossView Suite'를 제안합니다. 이를 위해 대규모 데이터셋인 CrossViewSet, 평가 벤치마크인 CrossViewBench, 그리고 3단계 추론 프레임워크인 CrossViewer를 통합적으로 개발하였습니다. 실험을 통해 대규모 데이터와 명시적인 교차 뷰 정렬이 실제 세계의 공간 지능 구현에 필수적임을 입증했습니다.
핵심 포인트
- CrossViewSet: 멀티 에이전트 데이터 엔진을 통해 구축된 1.6M 규모의 고품질 교차 뷰 지시어 데이터셋
- CrossViewBench: MLLM의 교차 뷰 공간 이해 능력을 다각도로 평가하기 위한 장면 불일치(scene-disjoint) 벤치마크
- CrossViewer: 인지, 정렬, 추론의 3단계 패러다임을 따르는 점진적 공간 추론 프레임워크
- 적응형 공간 영역 토크나이저를 활용하여 세밀한 객체 표현과 뷰 간 객체 정렬을 수행
공간 지능 (Spatial intelligence)은 멀티모달 거대 언어 모델 (MLLMs)이 단일 뷰 인지 (single-view perception)를 넘어, 여러 관점에 걸쳐 객체, 가시성, 기하학 및 상호작용에 대해 일관되게 추론할 수 있기를 요구합니다. 그러나 교차 뷰 추론 (cross-view reasoning)의 발전은 세 가지 주요 격차로 인해 여전히 제한적입니다: 대규모의 잘 주석 처리된 학습 데이터의 부족, 체계적인 평가를 위한 포괄적인 벤치마크의 부재, 그리고 뷰 간의 객체 수준 일관성을 구축하는 명시적인 정렬 (alignment) 메커니즘의 부재입니다. 이러한 격차를 해결하기 위해, 우리는 세 가지 조정된 구성 요소인 CrossViewSet, CrossViewBench, CrossViewer를 통해 CrossView Suite를 철저히 개발했습니다. 첫째, 우리는 1.6M 개의 샘플과 17개의 세분화된 작업 유형을 다루는 CrossViewSet이라 불리는 대규모 고품질 교차 뷰 지시어 데이터셋 (instruction dataset)을 세심하게 큐레이션하기 위해 멀티 에이전트 데이터 엔진을 도입합니다. 둘째, 우리는 MLLM의 교차 뷰 공간 이해 능력을 포괄적으로 평가하기 위해 다양한 측면에서 평가를 수행하는 장면 불일치 (scene-disjoint) CrossViewBench를 세심하게 제작합니다. 마지막으로, 우리는 인지 (Perception) -> 정렬 (Alignment) -> 추론 (Reasoning) 패러다임을 따르는 MLLM의 교차 뷰 공간 추론을 위한 점진적인 3단계 프레임워크인 CrossViewer를 제안합니다. 우리의 방법은 세밀한 객체 표현을 포착하기 위해 적응형 공간 영역 토크나이저 (adaptive spatial region tokenizer)를 갖추고, 이후 멀티 뷰 객체를 명시적으로 정렬하며, 이를 통해 정렬된 특징 (features)을 융합하여 MLLM의 교차 뷰 추론 능력을 향상시킵니다. 광범위한 실험과 분석은 대규모 학습 데이터, 체계적인 평가, 그리고 명시적인 교차 뷰 정렬이 모두 MLLM을 단일 뷰 인지에서 실제 세계의 공간 지능으로 발전시키는 데 매우 중요하다는 것을 보여줍니다. 프로젝트 페이지는 https://github.com/Thinkirin/Crossview-Suite 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기