arXiv논문2026. 06. 09. 12:48

AHA-WAM: 관측 가이드 컨텍스트 라우팅을 통한 비동기적 지평선 적응형 세계-행동 모델링

요약

AHA-WAM은 세계 예측과 행동 실행의 시간적 해상도를 분리하여 로봇 조작 성능을 높인 이중 Diffusion Transformer 아키텍처를 제안합니다. 비동기적 구조를 통해 장기적인 장면 변화를 효율적으로 모델링하면서도 실시간 폐루프 제어를 가능하게 합니다.

핵심 포인트

세계 예측과 행동 실행의 시간적 비대칭성 활용
이중 DiT 아키텍처 기반의 비동기적 모델링
OVCR 기술로 실시간 반응성과 장기 컨텍스트 유지
RoboTwin 및 실제 환경에서 SOTA 성능 달성
기존 모델 대비 4.59배 빠른 제어 속도 구현

세계-행동 모델 (World-action models)은 시각적 장면 역학 (visual scene dynamics)과 행동 (actions)을 공동으로 모델링하여 정책 학습 (policy learning)에 물리적 사전 지식 (physical priors)을 주입함으로써 로봇 조작 (robot manipulation)을 위한 유망한 패러다임으로 부상했습니다. 그러나 기존의 세계-행동 모델은 세계 예측 (world prediction)과 행동 실행 (action execution)을 동일한 시간 해상도 (temporal resolution)로 결합하여, 세계 분기 (world branch)가 중복되고 정보량이 적은 단기 프레임 변화를 모델링하도록 강제합니다. 우리는 세계 예측과 행동 실행을 엄격하게 동일한 시간적 리듬에 묶는 것이 체화된 제어 (embodied control)를 위한 비디오 분기 (video branch)의 잠재력을 충분히 활용하지 못할 수 있다고 가정합니다. 따라서 우리는 이러한 시간적 비대칭성 (temporal asymmetry)을 중심으로 세계-행동 모델링을 재구성하는 이중 확산 트랜스포머 (dual Diffusion Transformer, DiT) 아키텍처 기반의 비동기적 지평선 적응형 세계-행동 모델 (Asynchronous Horizon-Adaptive World-Action Model, AHA-WAM)을 제안합니다. AHA-WAM은 비디오 DiT를 과거 관측값에 대해 롤링 키-값 메모리 (rolling key-value memory)를 유지하고 장기적인 장면 진화 (long-horizon scene evolution)를 재사용 가능한 계층별 잠재 컨텍스트 인코딩 (layerwise latent context encoding)으로 노출하는 저주파 세계 플래너 (low-frequency world planner)로 구현하며, 고주파 행동 DiT (high-frequency action DiT)는 계층별 공동 주의 집중 (layerwise joint attention)을 통해 이 컨텍스트를 쿼리함으로써 폐루프 (closed loop) 방식으로 짧은 행동 청크 (action chunks)를 실행합니다. 비동기적 실행을 지원하기 위해, 우리는 지평선 적응형 오프셋 학습 (horizon-adaptive offset training)과 관측 가이드 비디오 컨텍스트 라우팅 (Observation-Guided Video-Context Routing, OVCR)을 도입합니다. 이들은 함께 행동 전문가 (action expert)가 비디오 DiT를 다시 실행하지 않고도 실시간 실행 상태에 반응성을 유지하면서 장기적인 세계 컨텍스트 (long-horizon world context)를 활용할 수 있게 합니다. RoboTwin 및 실제 환경의 조작 작업에 대한 실험 결과, AHA-WAM은 로봇 데이터 사전 학습 (robot-data pretraining) 없이도 최첨단 성능 (state-of-the-art performance)을 달성하였으며, RoboTwin에서 평균 92.80%의 성공률을, 4개의 실제 작업에서 78.3%의 성공률을 기록했습니다. 또한 Fast-WAM 대비 4.59배 빠른 속도로 24.17 Hz의 폐루프 제어를 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

AHA-WAM: 관측 가이드 컨텍스트 라우팅을 통한 비동기적 지평선 적응형 세계-행동 모델링

요약

핵심 포인트

댓글