X요약2026. 06. 15. 08:19

SpatialWorld

요약

멀티모달 에이전트가 3D 공간에서 탐색, 조작, 추론을 수행할 수 있는지 평가하는 새로운 벤치마크인 SpatialWorld를 소개합니다. 8개의 시뮬레이터와 760개의 태스크를 통해 현재 모델들의 한계를 측정합니다.

멀티모달 에이전트 (multimodal agents)가 물리적인 3D 공간에서 탐색(navigate), 조작(manipulate), 그리고 추론(reason)하도록 요구하는 새로운 벤치마크 (benchmark)입니다.

8개의 시뮬레이터 (simulators)에 걸친 760개의 태스크 (tasks)를 통해, GPT-5조차 단 17%의 성공률만을 보인다는 사실이 밝혀졌습니다.

AI 자동 생성 콘텐츠