PhysMani: 동적 객체 조작을 위한 물리 원칙 기반의 3D 월드 모델 (World Model)

비구조화된 3D 환경에서 빠르고 역동적으로 움직이는 목표물을 조작하는 것은 Embodied AI에게 여전히 어려운 과제로 남아 있습니다. 기존의 시각-언어-행동 (Visual-Language-Action) 모델과 월드 모델 (World Model)은 정확한 3D 기하학 (Geometry) 및 물리적으로 의미 있는 예측에 어려움을 겪습니다. 우리는 물리 원칙 기반의 3D 가우시안 (Gaussian) 월드 모델과 미래 인지형 행동 정책 (Action Policy) 모델을 결합한 프레임워크인 PhysMani를 제안합니다. 이 월드 모델은 빠르고 물리적으로 근거 있는 미래 역학 (Dynamics) 예측을 위해 온라인 최적화 (Online Optimization)를 통해 발산이 없는 가우시안 속도장 (Divergence-free Gaussian Velocity Field)을 학습합니다. 정책 모델은 학습 가능한 토큰 기반의 교차 주의 (Cross-attention) 모듈을 통해 예측된 3D 장면의 미래 역학을 통합합니다. 우리는 16개의 태스크를 포함하는 동적 조작 벤치마크인 PhysMani-Bench를 도입하며, 시뮬레이션과 실제 로봇 실험 모두에서 강력한 베이스라인 (Baseline) 모델들보다 우수한 성공률을 입증합니다.

Insights

PhysMani: 동적 객체 조작을 위한 물리 원칙 기반의 3D 월드 모델 (World Model)

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실