arXiv논문2026. 05. 21. 11:11

VISTA: EgoVis 2026의 Ego4D 단기 객체 상호작용 예측(STA) 챌린지를 위한 기술 보고서

요약

VISTA는 EgoVis 2026의 Ego4D 단기 객체 상호작용 예측(STA) 챌린지에서 1위를 달성한 기술 보고서입니다. V-JEPA 2.1의 시계열 문맥과 Faster R-CNN의 공간 탐지 능력을 결합하여, 1인칭 시점 비디오에서 미래의 객체 상호작용을 정밀하게 예측합니다.

핵심 포인트

V-JEPA 2.1의 동결된 시계열 분기를 활용하여 클립 수준의 1인칭 시점 문맥을 추출함
Faster R-CNN ResNet-50 FPN을 통해 고해상도 프레임에서 객체 제안을 생성함
특징 변조 및 ROI 수준의 문맥 융합을 통해 공간 탐지와 시계열 정보를 결합함
경계 상자, 명사/동사 범주, 접촉 시간, 신뢰도 점수를 동시에 예측하는 멀티 헤드 구조를 채택함
앙상블 기법을 통해 예측의 강건성을 높여 챌린지 1위를 기록함

우리는 EgoVis 2026의 Ego4D 단기 객체 상호작용 예측 (STA, Short-Term Object Interaction Anticipation) 챌린지를 위한 V-JEPA 통합 StillFast 시계열 예측기인 VISTA를 제안합니다. 1인칭 시점 (egocentric) 비디오의 타임스탬프가 주어지면, 이 작업은 미래의 능동 객체 (active object)에 대한 경계 상자 (bounding box), 명사 범주 (noun category), 동사 범주 (verb category), 접촉 시간 (time-to-contact), 그리고 신뢰도 점수 (confidence score)를 포함하여 다음 인간-객체 상호작용을 예측할 것을 요구합니다. VISTA는 객체 중심의 공간 탐지 (spatial detection)와 단기 시계열 문맥 (short-horizon temporal context)을 결합한 StillFast 스타일의 설계를 따릅니다. 구체적으로, COCO로 사전 학습된 Faster R-CNN ResNet-50 FPN 탐지기가 마지막으로 관찰된 고해상도 프레임으로부터 객체 제안 (object proposals)을 생성하며, 동결된 (frozen) V-JEPA 2.1 시계열 분기 (temporal branch)는 관찰된 비디오로부터 클립 수준의 1인칭 시점 문맥을 추출합니다. 시계열 표현은 특징 변조 (feature modulation) 및 ROI 수준의 문맥 융합 (context fusion)을 통해 탐지 경로로 주입됩니다. 융합된 제안 특징은 이후 박스 정밀화 (box refinement), 명사 분류 (noun classification), 동사 분류 (verb classification), 접촉 시간 회귀 (time-to-contact regression), 그리고 상호작용 신뢰도 추정 (interaction confidence estimation)을 위한 멀티 헤드 STA 예측기 (multi-head STA predictors)로 전달됩니다. 최종 제출을 위해, 우리는 강건성 (robustness)을 향상시키고자 상호 보완적인 예측들을 추가로 앙상블 (ensemble)하였습니다. 공식 챌린지 서버에서의 실험 결과, VISTA는 EgoVis 2026 Ego4D STA 챌린지에서 1위를 달성했습니다. 우리의 코드는 https://github.com/CorrineQiu/VISTA 에서 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

VISTA: EgoVis 2026의 Ego4D 단기 객체 상호작용 예측(STA) 챌린지를 위한 기술 보고서

요약

핵심 포인트

댓글