arXiv논문2026. 06. 08. 11:20

보고, 기억하고, 추론하기: MLLM을 통한 인간 관점의 비디오 이해

요약

본 연구는 MLLM을 활용한 비디오 이해를 '보고, 기억하고, 추론하기'라는 인간 중심의 세 가지 관점으로 체계화하여 제시합니다. 비디오 모델의 지각, 메모리, 추론 과정을 분석하는 통합 구조를 통해 향후 비디오 지능 연구의 방향성을 제안합니다.

핵심 포인트

비디오 이해를 보고, 기억하기, 추론하기의 세 단계로 정식화
시공간적 지각, 메모리 모델링, 충실한 추론의 중요성 강조
1인칭, 스포츠, 의료 등 다양한 응용 도메인 및 벤치마크 조사
확장 가능하고 증거에 기반한 비디오 지능 연구 방향 제시

비디오 이해 (Video understanding) 연구가 짧은 클립에서 길고, 다중 모달(multimodal)이며, 지식 집약적인 비디오 시나리오로 이동함에 따라 멀티모달 거대 언어 모델 (MLLMs)에 의해 급격하게 변화하고 있습니다. 이러한 시나리오에서는 모델이 희소한 증거 (sparse evidence), 장기 의존성 (long-range dependencies), 다중 모달 정렬 (multimodal alignment), 그리고 제한된 계산 예산 하에서의 신뢰할 수 있는 추론 (inference)을 처리할 것을 요구합니다. 본 연구는 보고(watching), 기억하고(remembering), 추론하는(reasoning) 세 가지 기능적 능력에 따라 구성된, LLM 기반 비디오 이해에 대한 인간 관점 (human-view perspective)을 제시합니다. 비디오 작업을 고립된 벤치마크로 취급하는 대신, 이 관점은 비디오 MLLM이 어떻게 증거를 습득하고, 문맥을 보존하며, 근거 있는 출력 (grounded outputs)을 생성하는지를 분석하기 위한 통합된 구조를 제공합니다. 우리는 지각 표현 (perceptual representations), 메모리 상태 (memory states), 추론 흔적 (reasoning traces), 그리고 최종 예측 (final predictions)에 의해 비디오 이해 시스템을 특징짓는 정식화 (formulation)를 도입합니다. 이 정식화를 바탕으로, 우리는 시공간적 지각 (spatio-temporal perception), 효율적인 긴 비디오 처리 (long-video processing), 메모리 모델링 (memory modeling), 스트리밍 이해 (streaming understanding), 그리고 충실한 추론 (faithful reasoning)에서의 과제들을 식별합니다. 대표적인 방법론들은 비디오 MLLM 시스템 내에서의 역할에 따라 분류됩니다. '보기 (Watching)'는 세밀하고(fine-grained), 포괄적이며(comprehensive), 시청각적(audio-visual)이고, 효율적인 지각을 다룹니다. '기억하기 (Remembering)'는 오프라인 및 스트리밍 메모리를 포함하며, '추론하기 (Reasoning)'는 텍스트 전용 추론 (text-only reasoning)과 비디오를 통한 사고 (thinking with videos)를 다룹니다. 나아가 우리는 1인칭 시점 (egocentric), 스포츠, 교육용 (instructional), 의료 (medical), 그리고 서사적 (narrative) 비디오와 같은 응용 도메인을 조사하며, 작업 유형, 지도 형식 (supervision formats), 모달리티 (modalities), 그리고 능력 차원에 따른 학습 데이터셋과 평가 벤치마크를 다룹니다. 마지막으로, 확장 가능하고, 메모리를 인식하며, 증거에 기반한 (evidence-grounded) 비디오 지능을 위한 미해결 문제와 향후 방향을 개괄합니다. 관련 연구는 https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding 에서 지속적으로 추적될 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

보고, 기억하고, 추론하기: MLLM을 통한 인간 관점의 비디오 이해

요약

핵심 포인트

댓글