본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 15. 08:19

SpatialWorld

요약

멀티모달 에이전트가 3D 공간에서 탐색, 조작, 추론을 수행할 수 있는지 평가하는 새로운 벤치마크인 SpatialWorld를 소개합니다. 8개의 시뮬레이터와 760개의 태스크를 통해 현재 모델들의 한계를 측정합니다.

핵심 포인트

  • 3D 공간 내 멀티모달 에이전트의 능력을 평가하는 벤치마크
  • 8개의 시뮬레이터와 760개의 다양한 태스크 포함
  • GPT-5급 모델도 성공률이 17%에 불과할 만큼 높은 난이도

멀티모달 에이전트 (multimodal agents)가 물리적인 3D 공간에서 탐색(navigate), 조작(manipulate), 그리고 추론(reason)하도록 요구하는 새로운 벤치마크 (benchmark)입니다.

8개의 시뮬레이터 (simulators)에 걸친 760개의 태스크 (tasks)를 통해, GPT-5조차 단 17%의 성공률만을 보인다는 사실이 밝혀졌습니다.

프로젝트 페이지:
https://spatial-world.github.io

논문:
https://paperswithcode.co/paper/2606.09669

코드:
https://github.com/Hongcheng-Gao/SpatialWorld

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0