본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 09. 19:10

SpatialWorld가 3D 공간에서 멀티모달 에이전트의 추론 능력이 얼마나 부족한지 공개하다

요약

SpatialWorld는 주방부터 도시까지 8개 시뮬레이터와 760개의 인간 어노테이션된 태스크를 제공하는 플랫폼입니다. 이 데이터를 통해 GPT-5조차도 모든 태스크의 17.4%만을 해결할 수 있음을 공개하며, 멀티모달 에이전트의 실제 추론 능력 부족을 지적합니다.

핵심 포인트

  • SpatialWorld는 주방부터 도시까지 총 8개 시뮬레이터를 포함합니다.
  • 총 760개의 인간 어노테이션된 태스크를 제공하는 대규모 데이터셋입니다.
  • GPT-5와 같은 최신 모델도 전체 태스크의 17.4%만을 해결할 수 있습니다.

SpatialWorld는 주방부터 도시 거리까지 총 8개의 시뮬레이터에 걸쳐 760개의 인간 어노테이션된 태스크를 제공합니다.
GPT-5조차도 이 중 17.4%만을 해결할 수 있습니다.

프로젝트 페이지:
https://spatial-world.github.io
코드:
https://github.com/Hongcheng-Gao/SpatialWorld

토론:https://paperswithcode.co/paper/2606.096
69

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0