arXiv논문2026. 06. 15. 04:59

SpatialClaw: 에이전트의 공간 추론을 위한 액션 인터페이스의 재고

요약

SpatialClaw는 VLM 에이전트의 공간 추론 능력을 향상시키기 위해 코드를 액션 인터페이스로 사용하는 training-free 프레임워크입니다. 상태 유지형 Python 커널을 통해 에이전트가 단계별로 실행 가능한 코드를 작성하며 유연하게 공간 정보를 처리할 수 있도록 설계되었습니다.

핵심 포인트

기존의 단일 패스 방식이나 구조화된 도구 호출의 유연성 한계 극복
상태 유지형 Python 커널을 활용한 단계별 코드 실행 인터페이스 제안
20개 벤치마크에서 기존 공간 에이전트 대비 평균 11.2%p 높은 정확도 달성
별도의 학습 없이 다양한 VLM 백본에서 일관된 성능 향상 입증

물체가 어디에 있는지, 어떻게 관계를 맺고 3D 공간에서 어떻게 움직이는지를 결정하는 능력인 공간 추론 (Spatial reasoning)은 시각-언어 모델 (VLMs)에게 여전히 근본적인 과제로 남아 있습니다. 도구 증강 에이전트 (Tool-augmented agents)는 전문적인 인지 모듈을 VLM에 추가하여 이를 해결하려고 시도하지만, 그 효과는 해당 도구들이 호출되는 액션 인터페이스 (action interface)에 의해 제한됩니다. 본 연구에서는 이러한 인터페이스의 설계가 에이전트의 개방형 공간 추론 (open-ended spatial reasoning) 능력을 어떻게 형성하는지 연구합니다. 기존의 공간 에이전트들은 중간 결과를 관찰하기 전에 전체 분석 전략을 확정해 버리는 단일 패스 코드 실행 (single-pass code execution) 방식을 채택하거나, 작업을 자유롭게 구성하거나 각 작업에 맞춰 분석을 조정할 수 있는 유연성이 부족한 구조화된 도구 호출 (structured tool-call) 인터페이스에 의존합니다. 두 설계 모두 개방형의 복잡한 3D/4D 공간 추론에 대해 제한된 유연성을 제공합니다. 따라서 우리는 코드를 액션 인터페이스로 채택한 공간 추론을 위한 학습 불필요 (training-free) 프레임워크인 SpatialClaw를 제안합니다. SpatialClaw는 입력 프레임과 일련의 인지 및 기하학적 프리미티브 (geometry primitives)가 사전 로드된 상태 유지형 (stateful) Python 커널을 유지하여, VLM 기반 에이전트가 모든 이전 출력을 조건으로 단계마다 하나의 실행 가능한 셀을 작성할 수 있게 합니다. 이를 통해 에이전트는 인지 결과를 유연하게 구성 및 조작할 수 있으며, 중간 텍스트 및 시각적 관찰 결과와 각 문제의 요구 사항에 맞춰 분석을 조정할 수 있습니다. 광범위한 정적 및 동적 3D/4D 공간 추론 작업을 아우르는 20개의 공간 추론 벤치마크를 통해 평가한 결과, SpatialClaw는 평균 59.9%의 정확도를 달성하였으며, 이는 최근의 공간 에이전트보다 11.2포인트 높은 수치입니다. 또한 별도의 벤치마크 또는 모델별 적응 없이도 두 모델 제품군의 6개 VLM 백본 (backbones) 전반에서 일관된 성능 향상을 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SpatialClaw: 에이전트의 공간 추론을 위한 액션 인터페이스의 재고

요약

핵심 포인트

댓글