PhysisForcing: 로봇 조작을 위한 물리 강화 월드 시뮬레이터 (Physics Reinforced World Simulator for
요약
PhysisForcing은 로봇 조작을 위한 물리적으로 일관된 비디오 생성 프레임워크입니다. 픽셀 및 시맨틱 수준의 정렬 손실을 통해 비디오 생성 모델의 물리적 불안정성을 해결하고, 로봇 제어를 위한 월드 시뮬레이션 성능을 크게 향상시켰습니다.
핵심 포인트
- 물리적 일관성을 위해 픽셀 및 시맨틱 수준의 공동 최적화 수행
- Wan2.2 및 Cosmos3-Nano 모델의 R-Bench 성능 대폭 향상
- 폐루프 성공률을 16.0%에서 24.0%로 개선
- 로봇 조작을 위한 강력한 물리적 표현력 제공
비디오 생성 모델은 체화된 월드 시뮬레이션 (embodied world simulation)을 위한 유망한 패러다임으로 등장했습니다. 그러나 일반 도메인 비디오 생성기와 로봇 특화 데이터로 미세 조정 (fine-tuned)된 모델 모두 여전히 불연속적인 운동 궤적 (motion trajectories) 및 일관되지 않은 로봇-객체 상호작용을 포함하여 물리적으로 타당하지 않은 조작을 생성할 수 있으며, 이는 월드 시뮬레이터로서의 신뢰성을 제한합니다. 광범위한 실험을 통해 우리는 이러한 물리적 불안정성이 주로 두 가지 요인, 즉 움직이는 객체의 변형 (deformation)과 상호작용하는 엔티티 간의, 특히 접촉 시 발생하는 타당하지 않은 시공간적 상관관계 (spatio-temporal correlations)에서 발생한다는 것을 발견했습니다. 이러한 관찰을 바탕으로, 우리는 픽셀 수준 (pixel-level) 및 시맨틱 수준 (semantic-level) 특징의 공동 최적화를 통해 물리 정보가 풍부한 영역에 감독 (supervision)을 집중함으로써 물리적 일관성을 강화하는 확장 가능한 학습 프레임워크인 PhysisForcing을 제안합니다. 이 프레임워크는 참조점 궤적을 사용하여 DiT 특징을 감독하는 픽셀 수준 궤적 정렬 손실 (pixel-level trajectory alignment loss)과, 고정된 (frozen) 비디오 이해 인코더에서 추출된 영역 간 관계와 DiT 특징을 정렬하는 시맨틱 수준 관계 정렬 손실 (semantic-level relational alignment loss)로 구성됩니다. R-Bench, PAI-Bench, EZS-Bench에 대한 광범위한 실험 결과, PhysisForcing은 강력한 베이스라인 모델들에 비해 체화된 비디오 생성 성능을 일관되게 향상시킴을 보여주었습니다. 구체적으로 Wan2.2-I2V-A14B와 Cosmos3-Nano 베이스 모델의 R-Bench 성능을 각각 22.3% 및 9.2% 향상시켰으며 (이는 일반적인 미세 조정 (vanilla finetuning) 대비 각각 7.1% 및 3.7% 향상된 수치임), Cosmos3-Nano 변형 모델이 가장 높은 종합 점수를 달성했습니다. 생성 능력을 넘어, WorldArena 액션 플래너 (action-planner) 프로토콜 하의 월드 모델로서 PhysisForcing은 폐루프 성공률 (closed-loop success rate)을 16.0%에서 24.0%로 높였으며, 다운스트림 정책 (downstream policy) 성공률을 더욱 향상시켰습니다. 이는 물리적으로 정렬된 비디오 모델이 로봇 조작을 위한 더 강력한 표현 (representations)을 생성함을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기