비동기 디노이징을 통한 비디오 사전 지식 기반 통합 4D 월드 액션 모델링
요약
본 논문은 실시간 로봇 액션 실행과 고해상도 4D 월드 합성(비디오 + 3D 재구성)을 통합하는 새로운 프레임워크 X-WAM을 제안합니다. X-WAM은 기존 모델의 한계였던 2D 픽셀 공간만 모델링하는 문제를 해결하고, 사전 학습된 비디오 확산 모델의 강력한 시각적 지식을 활용하여 미래 세계를 예측합니다. 특히, 비동기 노이즈 샘플링(ANS)을 도입하여 실시간 액션 디코딩 효율성을 높이고 고해상도 비디오 생성 품질을 유지하는 균형 잡힌 접근 방식을 제시했습니다.
핵심 포인트
- X-WAM은 로봇 액션 실행과 4D 월드 합성(비디오+3D 재구성)을 단일 프레임워크로 통합합니다.
- 사전 학습된 Diffusion Transformer의 구조를 활용하여 공간 정보를 효율적으로 예측하고 미래 세계를 상상합니다.
- 비동기 노이즈 샘플링(ANS)을 통해 실시간 액션 디코딩 속도를 높이고 고해상도 비디오 생성 품질을 유지합니다.
- RoboCasa 및 RoboTwin 2.0 벤치마크에서 기존 방법 대비 우수한 재구성 및 생성 성능을 입증했습니다.
우리는 실시간 로봇 액션 실행과 고해상도 4D 월드 합성 (비디오 + 3D 재구성) 을 단일 프레임워크에서 통합하는 통합 4D 월드 모델인 X-WAM 을 제안합니다. 이는 기존 통합 월드 모델 (예: UWM) 이 2D 픽셀 공간만 모델링하고 액션 효율성과 월드 모델링 품질 사이의 균형을 맞추지 못하는 주요 한계를 해결합니다. 사전 학습된 비디오 확산 모델의 강력한 시각적 사전 지식을 활용하기 위해, X-WAM 은 다중 뷰 RGB-D 비디오를 예측하여 미래 세계를 상상하고, 경량 구조적 적응을 통해 공간 정보를 효율적으로 획득합니다. 구체적으로, 우리는 미래 공간 정보 재구성을 위해 사전 학습된 Diffusion Transformer 의 마지막 몇 개의 블록을 전용 깊이 예측 분지로 복제하는 방식을 사용합니다. 또한, 생성 품질과 액션 디코딩 효율성을 동시에 최적화하기 위해 비동기 노이즈 샘플링 (ANS) 을 제안합니다. ANS 는 추론 과정에서 특수한 비동기 디노이징 스케줄을 적용하여, 적은 단계로 빠르게 액션을 디코딩하여 효율적인 실시간 실행을 가능하게 하고, 반면 고해상도 비디오 생성에는 전체 단계 수를 할당합니다. 훈련 중 시간 단계 (timesteps) 를 완전히 분리하지 않고, 대신 추론 분포와 일치하도록 그들의 결합 분포에서 샘플링합니다. 5,800 시간 이상의 로봇 데이터를 기반으로 사전 학습된 X-WAM 은 RoboCasa 와 RoboTwin 2.0 벤치마크에서 각각 평균 성공률 79.2% 와 90.7% 를 달성하며, 기존 방법보다 시각적 및 기하학적 지표 모두에서 우수한 고해상도 4D 재구성과 생성을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기