하이브리드 체화된 작업에서의 장기적 진화를 위한 World-Ego 모델링
요약
본 논문은 체화된 지능(Embodied intelligence)에서 세계(World)와 에고(Ego)의 역학이 얽혀 발생하는 성능 저하 문제를 해결하기 위해 World-Ego Modeling(WEM) 패러다임을 제안합니다. WEM은 세계와 에고를 분리하여 예측하는 플래너와 계층적 병렬 전문가 혼합(CP-MoE) 확산 생성기를 결합한 모델입니다. 또한, 내비게이션과 조작이 결합된 하이브리드 작업을 평가하기 위한 최초의 벤치마크인 HTEWorld를 구축하여 최첨단 성능을 입증했습니다.
핵심 포인트
- 세계(지시 사항과 무관한 장면 규칙성)와 에고(로봇 중심의 역학)를 분리하여 예측하는 새로운 패러다임 제안
- World-Ego Model(WEM)은 분리된 플래너와 CP-MoE 기반의 확산 생성기를 통합한 구조를 가짐
- 내비게이션과 조작 동작이 교차되는 하이브리드 작업을 위한 HTEWorld 벤치마크 구축
- WEM은 기존 조작 전용 벤치마크에서도 경쟁력을 유지하며 HTEWorld에서 SOTA 성능 달성
월드 모델 (World models)은 체화된 지능 (Embodied intelligence) 분야에서 널리 탐구되고 있지만, 일반적으로 단일 스트림 내에서 세계 (World)와 에고 (Ego)의 서로 다른 진화를 동시에 예측합니다. 여기서 세계는 지시 사항과 무관한 지속적인 장면의 규칙성을 포착하고, 에고는 로봇 중심의 지시 사항에 따른 역학 (Dynamics)을 포착합니다. 이러한 세계-에고의 얽힘 (World-ego entanglement)은 장기적인 체화된 시나리오, 특히 내비게이션 (Navigation)과 조작 (Manipulation) 동작이 교차되는 하이브리드 작업에서 성능 저하를 초래합니다.
본 논문에서는 미래의 진화를 세계와 에고 구성 요소로 분해하는 새로운 개념적 패러다임인 World-Ego Modeling을 소개합니다. 우리는 움직임 (Motion), 의미 (Semantic), 의도 (Intention) 기반의 세 가지 관점에서 세계-에고 경계를 정의하며, 사후 (Post-), 사전 (Pre-), 그리고 전체 (Full) 분리 전략을 분석합니다. 나아가, 우리는 이 패러다임을 World-Ego Model (WEM)로 구체화합니다. WEM은 암시적으로 분리된 세계-에고 플래너 (World-ego planner)와 계층적 병렬 전문가 혼합 (Cascade-parallel mixture-of-experts, CP-MoE) 확산 생성기 (Diffusion generator)를 결합한 통합된 체화된 월드 모델입니다.
엄격한 평가를 가능하게 하기 위해, 우리는 하이브리드 내비게이션-조작 작업을 포함하는 장기 월드 모델링을 위한 최초의 벤치마크인 HTEWorld를 구축했습니다. HTEWorld는 세밀한 동작 주석이 포함된 125K개의 비디오 클립 (4.5M 프레임 이상)과 300개의 다회차 평가 궤적 (2K개 이상의 지시 사항)을 제공합니다. 광범위한 실험을 통해 WEM이 기존의 조작 전용 벤치마크에서도 경쟁력을 유지하는 동시에, HTEWorld에서 최첨단 (State-of-the-art) 성능을 달성함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기