WorldRoamBench: 상호작용형 월드 모델의 장기적 안정성을 위한 오픈 월드 벤치마크

상호작용형 월드 모델 (IWMs)의 급격한 발전에도 불구하고, 기존의 벤치마크들은 궤적 (trajectory) 수준에서만 행동 추종을 평가하며 메모리 및 상호작용 물리 법칙을 간과하고 있습니다. 우리는 네 가지 차원에서 장기적 안정성 (long-horizon stability)을 평가하기 위해 각각 맞춤형 혁신을 적용한 오픈 월드 벤치마크인 WorldRoamBench를 소개합니다: (i) 행동 (Action): 모델 간의 의미론적 규모 차이 (semantic scale disparity)를 우회하고 궤적에 의해 숨겨진 실패를 드러내는 프레임당 행동 지표; (ii) 시각 (Vision): 시작점과 종료점 비교에서는 놓칠 수 있는 비단조적 중간 시퀀스 붕괴 (non-monotonic mid-sequence collapse)를 포착하는 세그먼트 기반 드리프트 지표; (iii) 물리 (Physics): 역학, 광학 및 3D 일관성에 대해 제어 가능성 기반 게이트 평가 (controllability-gated evaluation)를 수행하여, 충실한 행동 실행 하에서의 타당성을 점수화; (iv) 메모리 (Memory): 전이 국소화 3D 포인트 클라우드 재구성 (transition-localized 3D point-cloud reconstruction)을 통한 장면 메모리 평가와 트래킹 및 VLM 추론을 통한 피사체 메모리 평가를 수행하는 행동 분리 프로토콜 (action-decoupled protocol). 이 벤치마크는 자연 (Nature), 도시 (Urban), 실내 (Indoor) 장면을 아우르는 600개 이상의 테스트 케이스로 구성되어 있으며, 1인칭/3인칭 시점에서 WASD를 이용한 10~60초의 연속적인 상호작용을 포함합니다. 10개 이상의 오픈 소스 및 폐쇄형 소스 모델을 평가한 결과, 모든 차원을 안정적으로 만족하는 모델은 없는 것으로 나타났으며, 가장 우수한 모델조차 중간 정도의 점수만을 달성했습니다. WorldRoamBench에서의 발전은 안정적이고, 물리적 근거가 있으며, 메모리에 충실하고, 실제 응용 분야에 배포 가능한 IWMs를 향한 단계입니다.

Insights

WorldRoamBench: 상호작용형 월드 모델의 장기적 안정성을 위한 오픈 월드 벤치마크

요약

핵심 포인트

댓글

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법