PhysMani: 동적 객체 조작을 위한 물리 원칙 기반의 3D 월드 모델 (World Model)
요약
PhysMani는 비구조화된 3D 환경에서 동적 객체를 조작하기 위해 물리 원칙을 결합한 3D 가우시안 월드 모델 프레임워크입니다. 가우시안 속도장을 통해 물리적으로 정확한 미래 역학을 예측하며, 새로운 벤치마크인 PhysMani-Bench를 통해 성능을 입증했습니다.
핵심 포인트
- 물리 원칙 기반의 3D 가우시안 월드 모델 제안
- 발산 없는 가우시안 속도장을 통한 정확한 미래 역학 예측
- 토큰 기반 교차 주의 모듈을 활용한 행동 정책 모델 결합
- 동적 조작 성능 검증을 위한 PhysMani-Bench 도입
비구조화된 3D 환경에서 빠르고 역동적으로 움직이는 목표물을 조작하는 것은 Embodied AI에게 여전히 어려운 과제로 남아 있습니다. 기존의 시각-언어-행동 (Visual-Language-Action) 모델과 월드 모델 (World Model)은 정확한 3D 기하학 (Geometry) 및 물리적으로 의미 있는 예측에 어려움을 겪습니다. 우리는 물리 원칙 기반의 3D 가우시안 (Gaussian) 월드 모델과 미래 인지형 행동 정책 (Action Policy) 모델을 결합한 프레임워크인 PhysMani를 제안합니다. 이 월드 모델은 빠르고 물리적으로 근거 있는 미래 역학 (Dynamics) 예측을 위해 온라인 최적화 (Online Optimization)를 통해 발산이 없는 가우시안 속도장 (Divergence-free Gaussian Velocity Field)을 학습합니다. 정책 모델은 학습 가능한 토큰 기반의 교차 주의 (Cross-attention) 모듈을 통해 예측된 3D 장면의 미래 역학을 통합합니다. 우리는 16개의 태스크를 포함하는 동적 조작 벤치마크인 PhysMani-Bench를 도입하며, 시뮬레이션과 실제 로봇 실험 모두에서 강력한 베이스라인 (Baseline) 모델들보다 우수한 성공률을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기