arXiv논문2026. 06. 01. 11:02

SpatialAct: 3D 장면 내 VLM 에이전트의 공간 추론-행동 능력 탐색

요약

SpatialAct는 3D 장면 내 VLM 에이전트의 공간 추론 및 행동 능력을 평가하기 위한 새로운 시뮬레이터 기반 벤치마크입니다. 연구 결과, 현재의 VLM은 단일 추론에는 강하나 다회차 피드백 과정에서 일관된 공간 상태를 유지하며 행동을 개선하는 데 한계가 있음이 밝혀졌습니다.

핵심 포인트

3D 환경 내 행동 조건부 공간 추론 벤치마크 SpatialAct 제안
VLM의 추론과 실제 행동 사이의 간극(reasoning-to-action gap) 확인
다회차 상호작용 시 일관된 공간적 신념 유지 능력 부족 발견
환경 변화에 따른 견고한 공간 상태 추적 능력의 필요성 시사

인간은 일상적인 3D 환경에서 공간적 배치를 손쉽게 인지하고, 인지적 표현 (cognitive representations)을 형성하며, 공간 관계에 대해 추론하고, 이러한 추론을 행동으로 변환할 수 있습니다. 최근의 시각-언어 모델 (Vision-Language Models, VLMs)이 관찰 조건부 (observation-conditioned) 공간 인지 및 추론 작업에서 유망한 성능을 보여주었음에도 불구하고, 이들이 일관된 공간 이해를 구축하고, 이를 바탕으로 행동하며, 다회차 피드백 (multi-turn feedback)을 통해 행동을 개선할 수 있는지는 여전히 불분명합니다. 이 문제를 연구하기 위해, 우리는 3D 장면에서 extit{행동 조건부 공간 추론 (action-conditioned spatial reasoning)}을 탐색하기 위한 시뮬레이터 기반 벤치마크인 extbf{SpatialAct}를 소개합니다. 가장 도전적인 설정인 다회차 상호작용 개선 (Multi-turn Interactive Refinement)부터 시작하여, 모델 실패의 근본 원인을 진단하기 위해 다섯 가지 기본적인 공간 능력 작업과 함께 이를 분해한 형태인 단일 단계 오류 탐지 및 수정 (Single-step Error Detection and Fix)을 설계했습니다. 실험 결과, 명확한 추론-행동 간극 (reasoning-to-action gap)이 드러났습니다. 현재의 VLMs는 고립된 공간 추론 작업에서는 좋은 성능을 보일 수 있지만, 다회차 피드백 과정에서 일관된 공간적 신념 (spatial beliefs)을 유지하고 신뢰할 수 있는 행동을 생성하는 데 어려움을 겪으며, 인간에 비해 성능이 현저히 떨어집니다. 이러한 결과는 현재의 VLM 에이전트들이 저수준 제어 (low-level control)가 추상화되어 있는 상황에서도, 행동으로 유발된 환경 변화 하에서 견고한 공간 상태 추적 (spatial state tracking) 능력이 여전히 부족함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SpatialAct: 3D 장면 내 VLM 에이전트의 공간 추론-행동 능력 탐색

요약

핵심 포인트

댓글