시간 길이의 비디오에서 자연어 시간 기반 검색 문제: 벤치마크 및 경험적 분해
요약
본 논문은 장편 비디오에 대한 자연어 시간 기반 검색 문제를 다루며, 기존 연구가 짧은 영상에 국한되었음을 지적합니다. 저자들은 Video-LLM의 병목 현상이 위치 지정이 아닌 관련 영역 '검색' 문제에 있음을 밝히고, 이를 테스트하기 위해 ExtremeWhenBench라는 새로운 벤치마크를 공개했습니다.
핵심 포인트
- 장편 비디오 시간 기반 검색은 아직 충분히 탐구되지 않은 분야입니다.
- Video-LLM의 성능 병목 현상은 위치 지정보다 '검색' 문제에 기인합니다.
- 새로운 벤치마크 ExtremeWhenBench를 공개하여 연구 환경을 제공했습니다.
- 검색 후 접지(Retrieval-Augmented) 하이브리드 방식이 단일 Video-LLM보다 월등히 높은 성능을 보였습니다.
시간 기반 접지(Temporal grounding)란 비디오에 대한 자연어 질의에 대해 구간 $[t_s, t_e]$를 반환하는 것으로, 장편 비디오를 위한 언어 인터페이스이지만 짧은 비디오에서만 연구되어 왔으며, 시간 규모의 자연어 접지는 여전히 충분히 탐구되지 않았습니다. 저희는 시간 규모에서는 결합 제약(binding constraint)이 인식(recognition)이 아니라 검색(search)이라는 입장을 취합니다: Video-LLM은 가까운 이벤트를 위치 지정하는 것보다—자연어 질의가 주어졌을 때—장편 비디오에서 관련 영역을 검색하는 것에 의해 병목 현상을 겪습니다. 이를 테스트하기 위해, 저희는 개방형 형식(open-form) 질의 분포를 가진 최초의 시간 규모 접지 벤치마크인 ExtremeWhenBench를 공개합니다 (194개 비디오에 대한 2,273개 질의, 평균 75.7분, 최대 9시간). 모든 개방형 Video-LLM은 무너지는 반면, 프레임 레벨 검색(frame-level retrieval) 기반 모델이 이를 능가합니다; 실패 분류학(failure taxonomy)에 따르면 실패의 85%는 검색 문제에 기인하며; 검색 후 접지 하이브리드 방식은 단일 Video-LLM보다 6.7배 높은 성능을 회복하는데, 이는 개방 도메인 QA에서 '검색 후 읽기'를 반영합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기