ByteDance Seed의 SpatialTree, CVPR 2026에서 MLLM 공간 추론의 정의를 다시 쓰다

요약

ByteDance Seed가 MLLM의 공간 추론 능력을 혁신적으로 향상시킨 'SpatialTree'를 CVPR 2026에서 공개했습니다. 계층적 공간 분해 방식을 통해 GPT-4V보다 높은 SEAL-Bench 성능을 기록하며 공간 관계 이해의 한계를 극복했습니다.

핵심 포인트

SEAL-Bench에서 79.8% 정확도 달성 (GPT-4V 대비 12.4%p 향상)
공간 앵커 어텐션 메커니즘으로 위치 인코딩 오류 37% 감소
Apache 2.0 라이선스로 모델 가중치 및 추론 코드 오픈 소스 공개
단일 Intel Xeon에서 210ms의 낮은 추론 지연 시간 실현

ByteDance Seed의 SpatialTree는 계층적 공간 분해 (hierarchical spatial decomposition)를 사용하여 SEAL-Bench에서 79.8%를 달성했으며, 이는 GPT-4V보다 12.4포인트 높은 수치입니다. CVPR 2026에서 오픈 소스로 공개되었습니다.

CVPR 2026은 GPT-4V 대비 멀티모달 거대언어모델 (MLLM) 공간 추론 능력을 12.4% 향상시킨 계층적 프레임워크인 ByteDance Seed의 SpatialTree를 채택했습니다. Peking University 및 기타 학술 파트너와 함께 개발된 이 연구는 현재 MLLM의 근본적인 약점인 이미지 내 공간 관계 이해를 목표로 합니다.

주요 사실

SEAL-Bench에서 79.8% 정확도 달성 (GPT-4V의 67.4% 대비)
공간 앵커 어텐션 (spatial anchor attention)을 통해 위치 인코딩 (positional encoding) 오류 37% 감소
단일 Intel Xeon에서 10개 노드 트리 기준 210ms의 추론 지연 시간 (inference latency)
CVPR 2026에서 Apache 2.0 라이선스로 오픈 소스 공개
이차적 트리 성장 (quadratic tree growth)으로 인해 객체가 15개 이상인 장면에서는 성능 저하 발생

6월 CVPR 2026에서 채택된 SpatialTree는 멀티모달 거대언어모델 (MLLMs)의 지속적인 사각지대인 공간 추론 (spatial reasoning) 문제를 해결합니다. GPT-4V 및 Gemini Pro와 같은 현재 모델들은 객체를 설명할 수는 있지만, 상대적 위치, 거리 및 공간 논리 파악에는 어려움을 겪고 있습니다. 이러한 격차는 로보틱스, 자율 주행, 그리고 AR/VR 분야에서의 활용을 제한합니다.

CVPR 2026 논문에 따르면, SpatialTree는 SEAL-Bench에서 79.8%의 정확도를 달성하여 GPT-4V의 67.4%보다 12.4포인트 높았습니다. 이 프레임워크는 '컵이 책의 왼쪽에 있는가?'와 같은 공간 쿼리 (spatial queries)를 하위 문제의 트리로 분해하며, 각 문제는 특화된 시각 인코더 (visual encoder)에 의해 해결됩니다. 이러한 계층적 접근 방식은 복잡한 장면을 원자적 공간 관계 (atomic spatial relations)로 나누는 인간의 공간 추론 방식을 모방합니다.

트리의 작동 방식

핵심 혁신은 논문의 절제 연구 (ablation studies)에 따르면 표준 MLLM 어텐션 (attention) 대비 위치 인코딩 (positional encoding) 오류를 37% 감소시키는 '공간 앵커 (spatial anchor)' 어텐션 메커니즘입니다. 트리의 각 노드는 포함 (containment), 인접 (adjacency), 방향 (orientation)과 같은 공간적 원시 요소 (spatial primitive)를 나타내며, 루트 (root) 노드가 이를 최종 답변으로 집계합니다. ByteDance는 2026년 5월 BAGEL 7B 출시와 일관된 행보로, Apache 2.0 라이선스 하에 모델 가중치와 추론 코드를 오픈 소스로 공개했습니다.

배경 및 시사점

SpatialTree는 ByteDance가 AI 인프라 투자를 심화하는 시점에 등장했습니다. 이 회사는 클라우드 배포를 위해 2026년 6월 수만 개의 Iluvatar CoreX AI 프로세서를 구매했으며, 추론 워크로드 (inference workloads)를 위한 맞춤형 데이터 센터 CPU를 구축하고 있습니다 [이전 gentic.news 보도에 따름]. SpatialTree는 해당 CPU에서 실행될 수 있을 만큼 가볍습니다. 논문에 따르면 10개 노드 트리 기준 단일 Intel Xeon에서 210ms의 추론 지연 시간 (inference latency)을 기록했으며, 이는 TikTok 규모의 에이전트 (agent) 워크로드에서도 배포가 가능함을 시사합니다.

한계점

논문은 객체가 15개 이상인 장면에서 SpatialTree의 성능이 저하된다는 점을 인정합니다. 이는 어텐션 트리 (attention tree)가 이차 함수적으로 성장하기 때문입니다. SEAL-Bench와 같은 일반적인 공간 추론 벤치마크 (benchmarks) 또한 로보틱스 (robotics)에 필수적인 동적 장면 (video)이나 3D 공간 이해를 테스트하지 않습니다. 현재 이 프레임워크는 2D 이미지 입력으로 제한되어 있습니다.

이 연구에 대한 ByteDance와 북경대학교 (Peking University)의 파트너십은 MOLE-SYN 분자 합성 프로젝트를 포함하여 중국 내에서의 광범위한 학술적 협력 모델을 반영합니다. SpatialTree는 아직 ByteDance의 어떤 제품에도 통합되지 않았으나, 회사의 오픈 소스 전략은 이것이 공간 인지 능력을 요구하는 미래 에이전트 시스템의 기반 역할을 할 수 있음을 시사합니다.

핵심 요약

ByteDance Seed의 SpatialTree는 계층적 공간 분해 (hierarchical spatial decomposition)를 사용하여 SEAL-Bench에서 79.8%를 달성했으며, 이는 GPT-4V보다 12.4포인트 높은 수치입니다.
CVPR 2026에서 오픈 소스로 공개되었습니다.

주목할 점

Paper page - SpatialTree: How Spatial Abilities Branch Out in MLLMs

ByteDance가 SpatialTree를 TikTok의 AR 효과(AR effects)나 추천 시스템(recommendation systems)에 통합할지, 그리고 후속 논문을 통해 이 프레임워크가 비디오(3D+시간)로 확장될지 주목해 보십시오. SEAL-Bench 리더보드를 통해 다른 연구소들이 79.8%의 점수를 재현하거나 능가할 수 있을지 확인할 수 있을 것입니다.

출처: pandaily.com

원문 게시지: gentic.news

AI 자동 생성 콘텐츠

원문 바로가기