arXiv논문2026. 06. 15. 07:29

시간 길이의 비디오에서 자연어 시간 기반 검색 문제: 벤치마크 및 경험적 분해

요약

본 논문은 장편 비디오에 대한 자연어 시간 기반 검색 문제를 다루며, 기존 연구가 짧은 영상에 국한되었음을 지적합니다. 저자들은 Video-LLM의 병목 현상이 위치 지정이 아닌 관련 영역 '검색' 문제에 있음을 밝히고, 이를 테스트하기 위해 ExtremeWhenBench라는 새로운 벤치마크를 공개했습니다.

핵심 포인트

장편 비디오 시간 기반 검색은 아직 충분히 탐구되지 않은 분야입니다.
Video-LLM의 성능 병목 현상은 위치 지정보다 '검색' 문제에 기인합니다.
새로운 벤치마크 ExtremeWhenBench를 공개하여 연구 환경을 제공했습니다.
검색 후 접지(Retrieval-Augmented) 하이브리드 방식이 단일 Video-LLM보다 월등히 높은 성능을 보였습니다.

시간 기반 접지(Temporal grounding)란 비디오에 대한 자연어 질의에 대해 구간 $[t_s, t_e]$를 반환하는 것으로, 장편 비디오를 위한 언어 인터페이스이지만 짧은 비디오에서만 연구되어 왔으며, 시간 규모의 자연어 접지는 여전히 충분히 탐구되지 않았습니다. 저희는 시간 규모에서는 결합 제약(binding constraint)이 인식(recognition)이 아니라 검색(search)이라는 입장을 취합니다: Video-LLM은 가까운 이벤트를 위치 지정하는 것보다—자연어 질의가 주어졌을 때—장편 비디오에서 관련 영역을 검색하는 것에 의해 병목 현상을 겪습니다. 이를 테스트하기 위해, 저희는 개방형 형식(open-form) 질의 분포를 가진 최초의 시간 규모 접지 벤치마크인 ExtremeWhenBench를 공개합니다 (194개 비디오에 대한 2,273개 질의, 평균 75.7분, 최대 9시간). 모든 개방형 Video-LLM은 무너지는 반면, 프레임 레벨 검색(frame-level retrieval) 기반 모델이 이를 능가합니다; 실패 분류학(failure taxonomy)에 따르면 실패의 85%는 검색 문제에 기인하며; 검색 후 접지 하이브리드 방식은 단일 Video-LLM보다 6.7배 높은 성능을 회복하는데, 이는 개방 도메인 QA에서 '검색 후 읽기'를 반영합니다.

AI 자동 생성 콘텐츠

원문 바로가기

시간 길이의 비디오에서 자연어 시간 기반 검색 문제: 벤치마크 및 경험적 분해

요약

핵심 포인트

댓글