SpatialClaw: 에이전트의 공간 추론을 위한 액션 인터페이스의 재고
요약
SpatialClaw는 VLM 에이전트의 공간 추론 능력을 향상시키기 위해 코드를 액션 인터페이스로 사용하는 training-free 프레임워크입니다. 상태 유지형 Python 커널을 통해 에이전트가 단계별로 실행 가능한 코드를 작성하며 유연하게 공간 정보를 처리할 수 있도록 설계되었습니다.
핵심 포인트
- 기존의 단일 패스 방식이나 구조화된 도구 호출의 유연성 한계 극복
- 상태 유지형 Python 커널을 활용한 단계별 코드 실행 인터페이스 제안
- 20개 벤치마크에서 기존 공간 에이전트 대비 평균 11.2%p 높은 정확도 달성
- 별도의 학습 없이 다양한 VLM 백본에서 일관된 성능 향상 입증
물체가 어디에 있는지, 어떻게 관계를 맺고 3D 공간에서 어떻게 움직이는지를 결정하는 능력인 공간 추론 (Spatial reasoning)은 시각-언어 모델 (VLMs)에게 여전히 근본적인 과제로 남아 있습니다. 도구 증강 에이전트 (Tool-augmented agents)는 전문적인 인지 모듈을 VLM에 추가하여 이를 해결하려고 시도하지만, 그 효과는 해당 도구들이 호출되는 액션 인터페이스 (action interface)에 의해 제한됩니다. 본 연구에서는 이러한 인터페이스의 설계가 에이전트의 개방형 공간 추론 (open-ended spatial reasoning) 능력을 어떻게 형성하는지 연구합니다. 기존의 공간 에이전트들은 중간 결과를 관찰하기 전에 전체 분석 전략을 확정해 버리는 단일 패스 코드 실행 (single-pass code execution) 방식을 채택하거나, 작업을 자유롭게 구성하거나 각 작업에 맞춰 분석을 조정할 수 있는 유연성이 부족한 구조화된 도구 호출 (structured tool-call) 인터페이스에 의존합니다. 두 설계 모두 개방형의 복잡한 3D/4D 공간 추론에 대해 제한된 유연성을 제공합니다. 따라서 우리는 코드를 액션 인터페이스로 채택한 공간 추론을 위한 학습 불필요 (training-free) 프레임워크인 SpatialClaw를 제안합니다. SpatialClaw는 입력 프레임과 일련의 인지 및 기하학적 프리미티브 (geometry primitives)가 사전 로드된 상태 유지형 (stateful) Python 커널을 유지하여, VLM 기반 에이전트가 모든 이전 출력을 조건으로 단계마다 하나의 실행 가능한 셀을 작성할 수 있게 합니다. 이를 통해 에이전트는 인지 결과를 유연하게 구성 및 조작할 수 있으며, 중간 텍스트 및 시각적 관찰 결과와 각 문제의 요구 사항에 맞춰 분석을 조정할 수 있습니다. 광범위한 정적 및 동적 3D/4D 공간 추론 작업을 아우르는 20개의 공간 추론 벤치마크를 통해 평가한 결과, SpatialClaw는 평균 59.9%의 정확도를 달성하였으며, 이는 최근의 공간 에이전트보다 11.2포인트 높은 수치입니다. 또한 별도의 벤치마크 또는 모델별 적응 없이도 두 모델 제품군의 6개 VLM 백본 (backbones) 전반에서 일관된 성능 향상을 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기