arXiv논문2026. 05. 29. 12:55

PhyGenHOI: 동적 인간-물체 상호작용의 물리 인지형 4D 생성

요약

PhyGenHOI는 텍스트 입력을 기반으로 물리적으로 정확한 4D 인간-물체 상호작용(HOI) 장면을 생성하는 새로운 프레임워크입니다. Motion Diffusion Model과 물리 시뮬레이션(MPM)을 결합하여 시각적 충실도와 물리적 일관성을 동시에 확보합니다.

핵심 포인트

MDM 기반의 인간 동작과 MPM 기반의 물리적 물체 시뮬레이션 결합
Windowed Attraction Loss를 통한 동작과 물체의 시간적 동기화
Contact-Driven Re-simulation을 통한 물리적 운동량 전달 구현
Masked Video-SDS를 활용한 접촉 충실도 및 비디오 사전 지식 주입

우리는 물리적으로 정확하고 시각적으로 충실한 4D 인간-물체 상호작용 (Human-Object Interaction, HOI) 생성 과제를 다룹니다. 3D Gaussian Splats (3DGS)로 표현된 정적인 3D 인간과 대상 물체가 주어졌을 때, 우리의 목표는 주어진 입력 텍스트에 따라 인간이 펀치나 발차기와 같은 동작을 통해 물체와 능동적으로 상호작용하는 동적 장면을 합성하는 것입니다. 이를 위해 우리는 생성적 인간 동작과 명시적인 물리적 물체 시뮬레이션을 결합한 새로운 프레임워크인 PhyGenHOI를 소개합니다. 우리는 인간을 Motion Diffusion Model (MDM)에 의해 구동되는 의미론적 에이전트 (semantic agent)로 모델링하고, 물체를 Material Point Method (MPM)를 통해 시뮬레이션되는 물리적 에이전트 (physical agent)로 모델링하며, 3D Gaussians를 통합된 미분 가능한 표현 (differentiable representation)으로 활용합니다. 우리는 세 가지 결합된 메커니즘을 통해 그들의 상호작용을 감독합니다: (1) 생성된 동작이 물체를 가로챌 수 있도록 시간적으로 동기화하는 Windowed Attraction Loss, (2) 충돌 시 물리적으로 일관된 운동량 전달 (momentum transfer)을 트리거하는 Contact-Driven Re-simulation 단계, (3) 접촉 충실도를 높이기 위해 비디오 기반 사전 지식 (priors)을 주입하는 Masked Video-SDS 목적 함수입니다. 실험 결과, PhyGenHOI는 다양한 동작, 인간 및 물체에 대해 물리적으로 일관된 4D HOI를 생성하며 베이스라인 모델들을 능가함을 보여줍니다. 프로젝트 페이지 및 영상: https://omerbenishu.github.io/PhyGenHOI/

AI 자동 생성 콘텐츠

원문 바로가기

PhyGenHOI: 동적 인간-물체 상호작용의 물리 인지형 4D 생성

요약

핵심 포인트

댓글