Moment-Video: 순간적 시각적 이벤트에 대한 비디오 MLLM의 시간적 충실도 진단
요약
비디오 MLLM이 짧고 결정적인 시각적 이벤트를 포착하는 능력을 진단하기 위한 새로운 벤치마크 Moment-Video를 소개합니다. 33개의 모델을 평가한 결과, 현재의 모델들은 순간적인 시각적 증거를 보존하고 추론하는 데 있어 상당한 한계를 보였습니다.
핵심 포인트
- 순간적 시각적 이벤트 이해를 위한 Moment-Video 벤치마크 제안
- 7개 도메인 및 25개 하위 범주를 포함한 1,000개의 비디오-QA 쌍 구축
- 최고 성능 모델인 Seed-2.0-Pro도 전체 정확도 39.6%에 그침
- 현재 비디오 MLLM의 시간적 충실도(temporal fidelity) 부족 확인
비디오 멀티모달 거대 언어 모델 (Video MLLMs)은 일반적이고 긴 형태의 비디오 이해 분야에서 빠른 발전을 이루었으나, 짧은 답변에 결정적인 시각적 증거를 보존하는 능력은 아직 충분히 탐구되지 않았습니다. 많은 실질적인 질문들은 순간적인 시각적 이벤트, 즉 단 몇 프레임 동안만 지속될 수 있는 국소적 행동(localized actions)이나 상태 변화(state transitions)에 의해 결정됩니다. 이러한 증거는 희소 프레임 샘플링 (sparse frame sampling)에 의해 건너뛰어지거나, 시각적 토큰 압축 (visual-token compression)에 의해 억제되거나, 거친 시간적 집계 (coarse temporal aggregation)에 의해 희석될 수 있으며, 이는 언어 측면의 추론 (language-side reasoning)만으로는 신뢰성 있게 복구할 수 없는 실패를 야기합니다.
우리는 순간적 시각적 이벤트 이해를 통해 비디오 MLLM의 시간적 충실도 (temporal fidelity)를 진단하기 위한 벤치마크인 Moment-Video를 소개합니다. 각 질문은 국소적이고, 시각적으로 관찰 가능하며, 샘플링에 민감한 이벤트에 근거하며, 모델이 지속적인 객체 (persistent objects), 전역적 장면 문맥 (global scene context), 또는 언어적 사전 지식 (language priors)에 의존하는 대신 일시적인 증거를 포착하고, 세고, 설명하거나, 추론할 것을 요구합니다. Moment-Video는 7개 도메인과 25개의 세분화된 하위 범주에 걸쳐 인간이 검증한 1,000개의 비디오-QA 쌍을 포함하며, 시간적 발생 (Temporal Occurrence), 시간적 계수 (Temporal Counting), 행동 설명 (Action Description), 시간적 추론 (Temporal Reasoning)의 네 가지 작업 유형을 다룹니다.
우리는 Moment-Video를 통해 33개의 폐쇄형 및 오픈 소스 MLLM을 평가했습니다. 가장 성능이 좋은 모델인 Seed-2.0-Pro는 전체 정확도 39.6%를 기록하는 데 그쳤으며, 대부분의 오픈 소스 모델은 25% 미만에 머물러 순간적 시각적 이벤트 이해에 있어 상당한 격차가 있음을 보여주었습니다. 진단 분석 결과, 더 조밀한 프레임 샘플링 (denser frame sampling)이 일부 모델의 성능을 향상시키기는 하지만 병목 현상을 제거하지는 못하며, 더 긴 비디오는 더 강력한 시간적 국소화 (temporal-localization) 과제를 유발한다는 것을 보여줍니다. 이러한 발견은 현재의 비디오 MLLM이 짧지만 결정적인 시각적 증거를 포착, 보존 및 사용하는 데 있어 여전히 시간적으로 충실한 표현 (temporally faithful representations)이 부족함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기