arXiv논문2026. 06. 29. 11:01

HAT-4D: 인간-에이전트 협업을 통한 단안 비디오의 4D 다중 객체 상호작용 리프팅

요약

HAT-4D는 단안 비디오에서 다중 객체의 4D 상호작용을 재구성하는 에이전트 기반 프레임워크입니다. VLM과 인간 참여형 피드백을 결합하여 폐쇄 및 깊이 모호성 문제를 해결하며, Embodied AI 학습을 위한 고품질 데이터를 생성합니다.

핵심 포인트

단안 비디오 기반의 다중 객체 4D 상호작용 재구성 기술 제안
VLM과 인간 피드백을 활용한 물리적 타당성 확보
오픈 월드 벤치마크 MVOIK-4D 구축 및 SOTA 성능 달성
Embodied AI 및 VLA 모델 학습을 위한 데이터 엔진 역할

방대한 양의 야생(in-the-wild) 단안 비디오에서 동적인 4D 객체 상호작용을 추출하는 것은 Embodied AI를 확장하고 VLA(Vision-Language-Action)를 학습시키기 위한 매우 효율적인 데이터 수집 경로를 제공합니다. 그러나 기존의 단안 4D 재구성(reconstruction) 방법들은 주로 고립된 객체에 집중되어 있어, 다중 객체 상호작용에 내재된 심각한 폐쇄(occlusion) 및 복잡한 역학(dynamics) 상황에서는 실패하는 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 단일 비디오로부터 여러 객체의 3D 기하학(geometry), 시간적 역학(temporal dynamics), 그리고 물리적 상호작용을 재구성하도록 설계된 최초의 에이전트 기반 프레임워크인 HAT-4D를 제안합니다. HAT-4D는 VLM(Vision-Language Models)을 다단계 인간 참여형(human-in-the-loop) 피드백 메커니즘과 통합함으로써, 3D 생성 및 4D 전파(propagation) 과정에서 깊이 모호성(depth ambiguities)과 상호작용으로 인한 폐쇄 문제를 효율적으로 해결하며, 값비싼 다중 카메라 장비에 의존하지 않고도 물리적으로 타당한 자산(assets)을 생성합니다. 확장 가능한 데이터 엔진으로서, HAT-4D는 물리적 타당성과 시간적 일관성(temporal consistency)에 초점을 맞춘 새로운 다차원 평가 프로토콜과 함께, 단안 4D 상호작용 재구성을 위한 오픈 월드 벤치마크인 MVOIK-4D 구축을 촉진합니다. 광범위한 실험을 통해 HAT-4D가 경쟁력 있는 의미론적 정렬(semantic alignment)을 유지하면서도 대부분의 평가 지표에서 SOTA(State-of-the-Art) 성능을 달성함을 입증했습니다. 어블레이션 연구(Ablation studies)에 따르면 소량의 인간 피드백을 도입하는 것만으로도 상호작용 재구성이 향상됨을 보여줍니다. 또한, HAT-4D가 생성한 데이터는 파인튜닝(fine-tuning)에 사용될 때 베이스라인 성능을 효과적으로 개선합니다. 우리의 데이터와 코드는 https://lijiaxin0111.github.io/HAT4D/ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

HAT-4D: 인간-에이전트 협업을 통한 단안 비디오의 4D 다중 객체 상호작용 리프팅

요약

핵심 포인트

댓글