WorldRoamBench: 상호작용형 월드 모델의 장기적 안정성을 위한 오픈 월드 벤치마크
요약
상호작용형 월드 모델(IWMs)의 장기적 안정성을 평가하기 위한 새로운 오픈 월드 벤치마크인 WorldRoamBench를 소개합니다. 행동, 시각, 물리, 메모리의 네 가지 차원에서 모델의 성능을 다각도로 검증합니다.
핵심 포인트
- 기존 벤치마크가 간과한 메모리 및 물리 법칙 평가 기능 포함
- 행동, 시각, 물리, 메모리 4가지 핵심 차원의 평가 지표 도입
- 자연, 도시, 실내 등 600개 이상의 다양한 테스트 케이스 제공
- 기존 모델들이 장기적 안정성 측면에서 한계가 있음을 입증
상호작용형 월드 모델 (IWMs)의 급격한 발전에도 불구하고, 기존의 벤치마크들은 궤적 (trajectory) 수준에서만 행동 추종을 평가하며 메모리 및 상호작용 물리 법칙을 간과하고 있습니다. 우리는 네 가지 차원에서 장기적 안정성 (long-horizon stability)을 평가하기 위해 각각 맞춤형 혁신을 적용한 오픈 월드 벤치마크인 WorldRoamBench를 소개합니다: (i) 행동 (Action): 모델 간의 의미론적 규모 차이 (semantic scale disparity)를 우회하고 궤적에 의해 숨겨진 실패를 드러내는 프레임당 행동 지표; (ii) 시각 (Vision): 시작점과 종료점 비교에서는 놓칠 수 있는 비단조적 중간 시퀀스 붕괴 (non-monotonic mid-sequence collapse)를 포착하는 세그먼트 기반 드리프트 지표; (iii) 물리 (Physics): 역학, 광학 및 3D 일관성에 대해 제어 가능성 기반 게이트 평가 (controllability-gated evaluation)를 수행하여, 충실한 행동 실행 하에서의 타당성을 점수화; (iv) 메모리 (Memory): 전이 국소화 3D 포인트 클라우드 재구성 (transition-localized 3D point-cloud reconstruction)을 통한 장면 메모리 평가와 트래킹 및 VLM 추론을 통한 피사체 메모리 평가를 수행하는 행동 분리 프로토콜 (action-decoupled protocol). 이 벤치마크는 자연 (Nature), 도시 (Urban), 실내 (Indoor) 장면을 아우르는 600개 이상의 테스트 케이스로 구성되어 있으며, 1인칭/3인칭 시점에서 WASD를 이용한 10~60초의 연속적인 상호작용을 포함합니다. 10개 이상의 오픈 소스 및 폐쇄형 소스 모델을 평가한 결과, 모든 차원을 안정적으로 만족하는 모델은 없는 것으로 나타났으며, 가장 우수한 모델조차 중간 정도의 점수만을 달성했습니다. WorldRoamBench에서의 발전은 안정적이고, 물리적 근거가 있으며, 메모리에 충실하고, 실제 응용 분야에 배포 가능한 IWMs를 향한 단계입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기