arXiv논문2026. 05. 06. 12:51

상호작용 세계 모델 성능 평가 벤치마킹: iWorld-Bench 소개

요약

본 논문은 AGI 달성에 필수적인 상호작용 능력을 평가하기 위한 종합 벤치마크인 'iWorld-Bench'를 소개합니다. 이 벤치마크는 거리 감지, 기억 등 실제 물리적 상호작용 관련 능력을 테스트할 수 있도록 설계되었으며, 다양한 환경과 날씨 조건의 대규모 비디오 클립을 기반으로 구축되었습니다. iWorld-Bench는 행동 생성 프레임워크와 6가지 작업 유형을 통해 모델의 시각적 생성, 궤도 추종, 기억 성능을 종합적으로 평가합니다.

핵심 포인트

AGI 달성을 위해 상호작용 능력을 평가할 수 있는 대규모 통합 벤치마크가 필요하다는 문제 제기.
iWorld-Bench는 거리 감지 및 기억 등 물리적 상호작용 관련 능력을 테스트하는 종합적인 벤치마크이다.
33만 개의 비디오 클립을 기반으로 구축되었으며, 행동 생성 프레임워크와 6가지 작업 유형을 통해 평가의 통일성을 확보했다.
이 벤치마크를 사용하여 기존 세계 모델 14개를 평가하고 주요 한계점을 분석하여 향후 연구 방향에 기여한다.

인공지능 일반화 지능 (AGI) 을 달성하기 위해서는 학습 및 적응적 상호작용을 수행할 수 있는 에이전트가 필요하며, 상호작용 세계 모델은 감각, 추론, 행동에 대한 확장 가능한 환경을 제공합니다. 그러나 현재 연구는 여전히 물리적 상호작용 능력을 평가하기 위한 대규모 데이터셋과 통합 벤치마크가 부족합니다. 이를 해결하기 위해 우리는 거리 감지 및 기억 등 상호작용 관련 능력에서 세계 모델을 훈련하고 테스트할 수 있는 종합적인 벤치마크인 iWorld-Bench 를 제안합니다. 다양한 관점, 날씨, 장면을 포함하는 330k 개의 비디오 클립으로 구성된 다양한 데이터셋을 구축하고, 2.1k 개의 고품질 샘플을 선택했습니다. 기존 세계 모델이 상호작용 모달리티에서 차이가 있으므로 평가와 통합을 위해 행동 생성 프레임워크 (Action Generation Framework) 를 도입하고 6 가지 작업 유형을 설계하여 4.9k 개의 테스트 샘플을 생성했습니다. 이 작업들은 시각적 생성, 궤도 추종, 기억에 대한 모델 성능을 종합적으로 평가합니다. 14 개의 대표적 세계 모델을 평가하여 주요 한계를 파악하고 향후 연구에 통찰력을 제공했습니다. iWorld-Bench 모델 리더보드 는 공개적으로 iWorld-Bench.com 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

상호작용 세계 모델 성능 평가 벤치마킹: iWorld-Bench 소개

요약

핵심 포인트

댓글