지칭 비디오 분할을 위한 이벤트 인식 지시형 어시스턴트
요약
비디오를 단일 이벤트로 취급하여 발생하는 환각 문제를 해결하기 위해, 비디오를 여러 개의 단순한 이벤트로 분해하는 EVIS 모델을 제안합니다. 텍스트 가이드 이벤트 쿼리와 객체-픽셀-하이브리드 학습을 통해 복잡한 비디오 내 타겟을 정밀하게 추적합니다.
핵심 포인트
- 비디오를 개별 이벤트 단위로 분해하여 계층적 이해 달성
- 텍스트 가이드 이벤트 쿼리를 통한 시각-텍스트 특징 추출
- 객체-픽셀-하이브리드 학습으로 장기 비디오 타겟 추적 성능 향상
- 5개 벤치마크 실험을 통해 지칭 비디오 분할 성능 입증
기존의 지칭 비디오 분할 (Referring Video Segmentation) 방법들은 종종 비디오를 여러 이미지로 구성된 단일 이벤트로 취급하며, 비디오가 일반적으로 여러 개의 별개 이벤트를 포함하고 있다는 사실을 간과합니다. 이러한 메커니즘 하에서 모델은 비디오와 텍스트의 모든 복잡한 콘텐츠를 직접 이해해야 하며, 이는 쉽게 혼란과 환각 (Hallucination)을 초래할 수 있습니다. 이 문제를 해결하기 위해, 우리는 학습 가능한 이벤트 쿼리 (Event Query)를 통해 비디오를 일련의 단순한 이벤트들로 분해하고, 이벤트별로 이해하기 쉬운 방식으로 복잡한 비디오 콘텐츠를 이해할 것을 제안합니다. 이는 자연어 표현이 종종 비디오를 텍스트와 관련된 별개의 세그먼트로 나누며, 각 세그먼트가 복합 이벤트 내의 개별 이벤트를 나타낸다는 관찰에 기반합니다. 우리는 텍스트 가이드 이벤트 쿼리 (Text-guided Event Queries)를 사용하여 비디오를 단순한 이벤트로 분할하고, 이벤트 인식 시각-텍스트 특징 (Event-aware visual-text features)을 추출하여 비디오의 계층적 이해를 달성하는 이벤트 인식 비디오 지시형 분할 어시스턴트인 EVIS를 소개합니다. 또한, 우리는 미세한 픽셀 특징 (Fine-grained pixel features)을 사전 객체 쿼리 (Prior object queries)와 통합함으로써 멀티모달 대규모 언어 모델 (MLLMs)이 장기 비디오에서 타겟을 추적할 수 있게 하는 객체-픽셀-하이브리드 학습 (Object-Pixel-Hybrid Learning)을 제안합니다. 5개의 공개 벤치마크에 대한 광범위한 실험 결과는 지칭 비디오 분할 작업을 해결하는 데 있어 EVIS의 강력한 성능을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기