arXiv논문2026. 06. 24. 11:17

EG-VQA: 근거가 있는 시간적 증거를 통한 검증 가능한 비디오 질의응답 벤치마킹

요약

비디오 질의응답(VideoQA) 모델의 답변 근거를 검증하기 위한 새로운 벤치마크 EG-VQA를 제안합니다. 시간적 증거 주석을 통해 모델의 답변과 비디오 내용 간의 일치성을 평가하며, 이를 해결하기 위한 모델 EG-Reasoner를 선보입니다.

핵심 포인트

답변의 정확성뿐만 아니라 비디오 내 시간적 증거와의 일치성을 평가하는 EG-VQA 벤치마크 구축
정답 증거와의 시간적 정렬 및 의미론적 일관성을 측정하는 EG-F1 지표 도입
기존 폐쇄형 모델들도 답변의 근거를 정확히 찾는 데 한계가 있음을 확인
명시적 감독을 통해 학습된 EG-Reasoner 모델이 SOTA 성능 달성

최근 비디오 거대 언어 모델 (Video-LLMs)의 발전은 비디오 질의응답 (VideoQA) 분야에서 유망한 성능을 보여주었습니다. 그럼에도 불구하고, 기존의 벤치마크들은 주로 정답의 정확성을 통해 평가되며, 예측 결과가 관련 비디오 증거에 근거(grounding)하고 있는지에 대해서는 여전히 거의 조사되지 않은 상태로 남아 있습니다. 이러한 답변 생성과 증거 이해 사이의 괴리는 근거 기반 비디오 질의응답 벤치마크 (Evidence-Grounded Video Question Answering Benchmark, EG-VQA)의 구축을 촉발했습니다. 이는 각 QA 쌍에 지원하는 시간적 증거 (temporal evidence)가 명시적으로 주석 처리되어 있어, 공동 추론 (joint reasoning)과 정밀한 증거 지역화 (evidence localization)를 요구하는 개방형 평가 프로토콜입니다. EG-VQA는 미세한 증거 주석이 포함된 2,067개의 비디오와 11,838개의 QA 쌍으로 구성되어 있습니다. 예측된 증거를 평가하기 위해, 정답 증거에 대한 시간적 정렬 (temporal alignment)과 의미론적 일관성 (semantic consistency)을 공동으로 측정하는 통합 지표인 근거 기반 F1 (Evidence-Grounded F1, EG-F1)이 도입되었습니다. 실험적 평가 결과, 강력한 폐쇄형 모델 (proprietary models)조차도 예측 내용을 정확하게 근거화하는 데 어려움을 겪고 있으며, 이는 답변의 정확성과 충실한 증거 지역화 사이의 근본적인 불일치를 드러냅니다. 이 간극을 메우기 위해, 명시적인 감독 (explicit supervision)을 통해 학습된 근거 기반 추론 모델인 EG-Reasoner를 제안합니다. 오픈 소스 모델들 사이에서 최첨단 (state-of-the-art) 성능을 달성하였으며, 폐쇄형 시스템과 경쟁할 만한 결과를 보여주었습니다. 특히 반사실적 질문 (counterfactual questions)과 같이 추론 집약적인 작업에서 두드러진 향상이 관찰되었습니다. 이러한 발견은 규모 확장 (scaling)만으로는 견고한 비디오 이해를 달성하기에 불충분하며, 더 신뢰할 수 있고 해석 가능한 VideoQA 시스템의 개발을 위해서는 구조화된 증거 감독이 필수적임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

EG-VQA: 근거가 있는 시간적 증거를 통한 검증 가능한 비디오 질의응답 벤치마킹

요약

핵심 포인트

댓글