arXiv논문2026. 06. 02. 11:48

강체 객체를 위한 행동 조건부 및 객체 중심 Gaussian Splatting 월드 모델 학습

요약

강체 객체의 행동 조건부 역학을 학습하는 새로운 월드 모델인 MRO-GWM을 제안합니다. 객체 중심 Gaussian Splatting과 시공간 트랜스포머를 활용하여 다중 객체 장면의 미래 운동을 예측합니다.

핵심 포인트

객체 중심 가우시안을 통한 다중 객체 장면 표현
시공간 트랜스포머 기반의 미래 강체 운동 예측
정준 좌표계를 활용한 강체 변환 기술
폐쇄 및 부분 관측 상황에서의 예측 성능 확보
비파지 조작을 위한 모델 예측 제어(MPC) 적용

월드 모델 (World models)은 지능형 에이전트가 자신의 행동이 환경에 미치는 결과를 예측할 수 있게 합니다. 본 논문에서는 3D 공간에서 강체 객체 (rigid objects)의 행동 조건부 역학 (action-conditional dynamics)을 학습하는 새로운 모델인 Multi Rigid Object Gaussian World Model (MRO-GWM)을 제안합니다. 장면을 객체 중심의 가우시안 (object-centric Gaussians)으로 표현함으로써, 임의의 객체 형태와 다중 객체 장면을 표현할 수 있습니다. 우리는 객체 가우시안의 이력과 미래의 행동으로부터 미래의 강체 운동 (rigid body motion)을 예측하는 새로운 시공간 트랜스포머 (spatio-temporal transformer) 아키텍처를 개발합니다. 객체는 정준 좌표계 (canonical frame) 내의 가우시안으로 표현되며, 이를 통해 객체의 운동을 강체 변환 (rigid body transformation)으로 기술할 수 있습니다. 우리 모델은 다중 시점에서의 재구성 데이터를 통해 학습되며, 이는 모델이 폐쇄 (occlusions)로 인한 객체의 부분적 관측 (partial observations)을 처리할 것을 요구합니다. 우리는 로봇 말단 장치 (end effector)에 의한 다중 객체 역학 및 상호작용을 포함하는 전형적인 가전제품들로 구성된 합성 데이터셋에서 우리 방식의 예측 성능을 분석합니다. 또한 시뮬레이션 내 비파지 조작 (non-prehensile manipulation)을 위한 모델 예측 제어 (model-predictive control) 환경에서 우리 모델을 평가합니다.

AI 자동 생성 콘텐츠

원문 바로가기

강체 객체를 위한 행동 조건부 및 객체 중심 Gaussian Splatting 월드 모델 학습

요약

핵심 포인트

댓글