arXiv논문2026. 05. 01. 13:14

PhyCo: 생성형 모션 학습을 위한 제어 가능한 물리 사전 지식 학습

요약

PhyCo는 기존 비디오 확산 모델이 겪는 물리적 불일치 문제를 해결하기 위해 설계된 새로운 프레임워크입니다. 이 접근법은 대규모의 물리 시뮬레이션 데이터셋, 물리 속성 맵 기반의 ControlNet을 사용한 미세 조정, 그리고 VLM(비전-언어 모델) 가이드 보상 최적화를 결합합니다. 이를 통해 추론 과정에서 복잡한 시뮬레이터 없이도 마찰력이나 탄성 같은 물리적 속성의 변화를 제어하며 높은 수준의 물리적 일관성을 갖춘 생성형 비디오를 생성할 수 있습니다.

핵심 포인트

PhyCo는 비디오 확산 모델의 물리적 불일치 문제를 해결하는 프레임워크이다.
핵심 구성 요소로는 대규모 물리 시뮬레이션 데이터셋, 물리 속성 맵 기반 ControlNet을 이용한 미세 조정, VLM 가이드 보상 최적화가 포함된다.
이 방법론은 복잡한 외부 시뮬레이터나 기하학 재구성 없이도 물리적 속성을 제어하며 비디오를 생성할 수 있게 한다.
Physics-IQ 벤치마크에서 기존 모델 대비 월등히 높은 물리적 현실감을 입증했다.

현대 비디오 확산 모델 (video diffusion models) 은 외관 합성 (appearance synthesis) 에서 뛰어난 성능을 보이지만, 여전히 물리적 일관성 (physical consistency) 유지에 어려움을 겪고 있습니다. 물체는 떠다니며 (drift), 충돌 시 현실적인 반동 (rebound) 이 부족하고, 재료 반응이 그 기본 속성과 일치하지 않는 경우가 많습니다. 우리는 비디오 생성에 연속적이고 해석 가능하며 물리적으로 기반을 둔 제어 (continuous, interpretable, and physically grounded control) 를 도입하는 프레임워크인 PhyCo 를 제안합니다. 우리의 접근법은 세 가지 핵심 구성 요소를 통합합니다: (i) 마찰, 복원력 (restitution), 변형, 힘 등이 다양한 시나리오에서 체계적으로 변화하는 10 만 개 이상의 초현실적인 시뮬레이션 비디오로 구성된 대규모 데이터셋; (ii) 픽셀 정렬된 물리 속성 맵 (pixel-aligned physical property maps) 에 조건부 (conditioned on) 로 설정된 ControlNet 을 사용하여 사전 학습된 확산 모델을 물리 지도 기반 미세 조정 (physics-supervised fine-tuning) 하는 것; (iii) VLM(비전-언어 모델) 가이드 보상 최적화 (VLM-guided reward optimization) 로, 미세 조정된 비전-언어 모델이 생성된 비디오를 대상 물리 쿼리로 평가하고 미분 가능한 피드백을 제공합니다. 이 조합은 추론 시 시뮬레이터나 기하학 재구성 없이도 물리적 속성의 변화를 통해 물리적으로 일관되고 제어 가능한 출력을 생성하는 생성 모델을 가능하게 합니다. Physics-IQ 벤치마크에서 PhyCo 는 강력한 베이스라인 대비 물리적 현실감을 크게 개선했으며, 인간 연구는 물리적 속성에 대한 명확하고 충실한 제어를 확인했습니다. 우리의 결과는 합성 학습 환경을 넘어 일반화되는 물리적으로 일관되고 제어 가능한 생성형 비디오 모델로 가는 확장 가능한 경로를 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

PhyCo: 생성형 모션 학습을 위한 제어 가능한 물리 사전 지식 학습

요약

핵심 포인트

댓글