본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 29. 11:01

HAT-4D: 인간-에이전트 협업을 통한 단안 비디오의 4D 다중 객체 상호작용 리프팅

요약

HAT-4D는 단안 비디오에서 다중 객체의 4D 상호작용을 재구성하는 에이전트 기반 프레임워크입니다. VLM과 인간 참여형 피드백을 결합하여 폐쇄 및 깊이 모호성 문제를 해결하며, Embodied AI 학습을 위한 고품질 데이터를 생성합니다.

핵심 포인트

  • 단안 비디오 기반의 다중 객체 4D 상호작용 재구성 기술 제안
  • VLM과 인간 피드백을 활용한 물리적 타당성 확보
  • 오픈 월드 벤치마크 MVOIK-4D 구축 및 SOTA 성능 달성
  • Embodied AI 및 VLA 모델 학습을 위한 데이터 엔진 역할

방대한 양의 야생(in-the-wild) 단안 비디오에서 동적인 4D 객체 상호작용을 추출하는 것은 Embodied AI를 확장하고 VLA(Vision-Language-Action)를 학습시키기 위한 매우 효율적인 데이터 수집 경로를 제공합니다. 그러나 기존의 단안 4D 재구성(reconstruction) 방법들은 주로 고립된 객체에 집중되어 있어, 다중 객체 상호작용에 내재된 심각한 폐쇄(occlusion) 및 복잡한 역학(dynamics) 상황에서는 실패하는 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 단일 비디오로부터 여러 객체의 3D 기하학(geometry), 시간적 역학(temporal dynamics), 그리고 물리적 상호작용을 재구성하도록 설계된 최초의 에이전트 기반 프레임워크인 HAT-4D를 제안합니다. HAT-4D는 VLM(Vision-Language Models)을 다단계 인간 참여형(human-in-the-loop) 피드백 메커니즘과 통합함으로써, 3D 생성 및 4D 전파(propagation) 과정에서 깊이 모호성(depth ambiguities)과 상호작용으로 인한 폐쇄 문제를 효율적으로 해결하며, 값비싼 다중 카메라 장비에 의존하지 않고도 물리적으로 타당한 자산(assets)을 생성합니다. 확장 가능한 데이터 엔진으로서, HAT-4D는 물리적 타당성과 시간적 일관성(temporal consistency)에 초점을 맞춘 새로운 다차원 평가 프로토콜과 함께, 단안 4D 상호작용 재구성을 위한 오픈 월드 벤치마크인 MVOIK-4D 구축을 촉진합니다. 광범위한 실험을 통해 HAT-4D가 경쟁력 있는 의미론적 정렬(semantic alignment)을 유지하면서도 대부분의 평가 지표에서 SOTA(State-of-the-Art) 성능을 달성함을 입증했습니다. 어블레이션 연구(Ablation studies)에 따르면 소량의 인간 피드백을 도입하는 것만으로도 상호작용 재구성이 향상됨을 보여줍니다. 또한, HAT-4D가 생성한 데이터는 파인튜닝(fine-tuning)에 사용될 때 베이스라인 성능을 효과적으로 개선합니다. 우리의 데이터와 코드는 https://lijiaxin0111.github.io/HAT4D/ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0