HuggingFace헤드라인2026. 05. 05. 01:04

TimeScope: 비디오 대형 다중 모달 모델이 얼마나 오래 갈 수 있나요?

요약

TimeScope는 시각 언어 모델(VLM)이 장시간 영상을 얼마나 깊이 있게 이해하는지 측정하기 위해 설계된 오픈소스 벤치마크입니다. 이 벤치마크는 1분에서 최대 8시간에 달하는 긴 기본 영상('haystack')에 짧은 '영상 클립'(needle)을 삽입하여, 모델의 국소화된 검색, 정보 합성, 미세한 시간적 인식 세 가지 핵심 능력을 평가합니다. TimeScope는 단순히 프레임 수를 늘리는 것만으로는 진정한 시간적 이해를 달성할 수 없으며, 전체 맥락에서 사건 순서와 역학을 추론하는 것이 중요함을 강조하며, 현존 모델들의 과장된 주장을 검증합니다.

핵심 포인트

TimeScope는 VLM의 장시간 영상 이해 능력을 측정하기 위해 개발된 오픈소스 벤치마크이다.
이 벤치마크는 긴 기본 영상에 짧은 '영상 클립'을 삽입하여 모델의 국소화 검색, 정보 합성, 미세한 시간적 인식 세 가지 측면을 포괄적으로 평가한다.
최신 VLM들이 주장하는 수천 프레임 처리 능력은 종종 과장되었으며, 실제 성능은 훈련 데이터 크기(예: 256프레임)에 의해 제한될 수 있다.
TimeScope는 모델이 단순히 정보를 검색하는 것을 넘어, 전체 타임라인을 스캔하고 사건의 순서와 시간적 역학을 이해하도록 강제한다.
진정한 장시간 영상 이해를 위해서는 단순한 프레임 샘플링 증가 이상의 깊은 맥락 추론 능력이 요구된다.

TimeScope 는 시각 언어 모델 (Vision-Language Models) 이 긴 영상을 얼마나 잘 이해하는지 측정하기 위해 설계된 오픈소스 벤치마크입니다. 1 분에서 8 시간까지의 영상에 짧은 "needle(바늘)" 클립을 추가하여 세 가지 기술을 평가합니다:

로컬라이제드 리트리벌 (localized retrieval),
정보 합성 (information synthesis),
미세한 시간적 인식 (fine-grained temporal perception). TimeScope 는 최첨단 모델들이 여전히 진정한 시간적 이해에 어려움을 겪고 있음을 드러냅니다.

다중 모달 AI 의 최근 발전은 시간당 영상을 이해한다고 주장하는 모델을 만들어냈습니다. 이 경향은 긴 문맥 언어 모델의 진행과 유사하며, 이러한 모델들은 긴 텍스트를 추론하는 데 탁월합니다. 따라서 시각 언어 시스템은 이제 수천 개의 프레임 (frames) 을 처리할 수 있는 컨텍스트 윈도우를 광고하고 있습니다. 그러나 이러한 주장은 더 자세히 살펴볼 필요가 있습니다: 이 모델들이 실제로 사건 순서를 이해하는지, 아니면 표면적인 리트리벌 또는 인식에만 제한되는지? 그들의 능력이 과장되고 있는지 묻는 것이 중요합니다.

HELM 및 RULER와 같은 텍스트 벤치마크는 긴 문맥 주장의 취약성을 드러냈으며, 단순한 리트리벌 이상의 작업을 요구하는 경우 (예: 추론이나 긴 문맥 길이의 집계) 모델들이 종종 어려움을 겪음을 보여줍니다. 영상 도메인에서는 아직 뒤처지고 있습니다. 가장 일반적인 테스트인 Video Needle in a Haystack (VideoNIAH) 은 동적 영상 이 아닌 정적인 이미지 를 "바늘"로 영상에 주입하여 시각 검색을 측정하는 반면, 진정한 시간적 역학을 측정하지 않습니다. 결과적으로, 수천 개의 프레임 능력을 광고하는 최상위 모델조차도 ~256 프레임 이상으로 훈련되지 않으며, Video-MME와 같은 벤치마크에서 더 멀리 밀려갈 때 급격히 떨어집니다.

이 측정 간극은 우리에게 다음과 같은 질문을 던집니다: 모델이 "긴 영상을 이해한다"는 것이 무엇을 의미하는지? 이에 대해, 우리는 Hugging Face 에 호스팅된 새로운 오픈소스 벤치마크인 TimeScope 를 소개합니다. TimeScope 는 1 분에서 8 시간까지의 기본 영상에 몇 개의 짧은 (~5-10 초) 영상 클립—우리의 "바늘"—을 삽입하여 긴 영상 능력의 한계를 탐구합니다. 세 가지 다른 작업 유형으로,它不仅 (not just) 리트리벌뿐만 아니라 합성, 로컬라이제이션 및 미세한 모션 분석을 평가하여 시간적 이해에 대한 더 포괄적인 관점을 제공합니다.

긴 영상 AI 의 약속은 변혁적입니다 — 수 시간의 영상을 요약하고, 미묘한 이상을 탐지하며, 확장된 내러티브에 대해 복잡한 질문에 답할 수 있는 에이전트를 가능하게 합니다. 로봇공학에 통합되면 이러한 모델은 장기적인 작업을 분석하고, 실시간으로 적응하며, 자율 결정 추이를 밀어올릴 수 있습니다. 개인 보조자가 일상생활을 이해하고 지속적인 실행 가능한 피드백을 제공하는 것은 또한 강력합니다.

실제로는 과장된 능력을 초래합니다. 모델은 10,000 개 이상의 프레임을 처리한다고 주장할 수 있지만, 훈련 데이터는 종종 클립당 256 프레임으로 제한되어 긴 입력에서 성능이 저하됩니다. 우리는 시간적 통찰력을 요구하는 작업에서 정확도를 탭 (tank) 하는 프레임 샘플링 속도를 증가시키는 평가에서 이를 보았습니다.

TimeScope 는 긴 영상 이해의 세 가지 기둥을 강조하여 시나리오를 뒤집습니다:

로컬라이제드 리트리벌: 모델이 광범위한 영상 내에서 특정 짧은 섹션에 대해 질문을 찾아내고 답변할 수 있는가?
정보 합성: 타임라인 전체 여러 지점에서 세부 사항을 수집하고 순서를 정할 수 있는가?
미세한 시간적 인식: 밀집된 다중 프레임 샘플링을 요구하는 바늘에서 운동과 사건을 분석할 수 있는가?

TimeScope 의 핵심 아이디어는 짧은 영상 클립을 '침' (needle) 으로 사용하며, 단순히 침을 찾는 것이 아니라 모델을 전체 영상을 깊이 있게 이해하도록 유도하는 것입니다. 우리는 긴 기본 영상 (예: 다큐멘터리, 강연, 또는 환경 영상) 을 시작하고, 임의의 위치에 하나 이상의 손으로 편집된 짧은 영상 침 (각 5-10 초) 을 삽입합니다. 이러한 침은 작업을 해결하기 위해 필요한 핵심 정보를 포함하며, 이는 모델이 희소 샘플링과 같은 단축을 하지 않고 전체 입력을 처리하도록 강요합니다.

Figure 1: TimeScope 의 침 삽입 과정 개요. 긴 기본 영상 (1 분 ~ 8 시간) 이 해초 (haystack) 역할을 하며, 여기에 짧은 영상 침 (~5-10 초) 을 스플라이스 합니다. 작업은 이러한 침에서 내용을 탐지하거나, 합성하거나 분석하는 것을 요구하며, 침은 다양한 깊이로 삽입됩니다.

우리는 세 가지 침 유형을 평가하며, 각각 긴 영상 이해의 다른 측면을 목표로 합니다:

이 테스트는 국소화된 사건의 기본 검색 및 이해를 테스트합니다. 질문은 관련 프레임에서 샘플링만으로도 충분하도록 설정되어 있습니다—예를 들어, 긴 영상에서 짧은 부분을 묻는 것과 같습니다.

예시:

영상에 표시된 이동 수단은 무엇인가요?

여기서 우리는 영상 내 다른 위치 (예: 화면 텍스트를 통해 "비밀 단어"를 표시하는 2-4 개의 짧은 클립) 에 여러 텍스트 기반 침을 삽입합니다. 모델은 모든 단어를 식별하고 시간 순서에 따라 보고해야 하며, 이는 분산된 장면에서 타임스탬프 또는 핵심 사실을 추출하는 작업을 모방합니다. 이는 전체 타임라인을 스캔하고 상대적 위치를 이해하는 것을 요구합니다.

짧은 클립 내의 움직임이나 시퀀스에 대한 질문에는 단일 프레임 샘플링만으로는 부족하며, 모델은 프레임 간의 역학을 인식해야 합니다. 이는 긴 컨텍스트 처리가 시간적 충실도를 유지하는지 여부를 탐구합니다.

예시:

그 남자가 도끼를 몇 번 휘두른 것인가요? (a) 하나 (b) 두 (c) 세 (d) 네 (e) 다섯 (f) 여섯

다른 영상 길이와 다양한 침 배치로, TimeScope 는 모델이 실제로 처리할 수 있는 영상의 양을 측정하며, 영상이 길어질수록 성능이 떨어짐을 보여줍니다.

시작하기 위해, 우리는 오픈소스 애호품부터 Gemini 2.5-Pro 와 같은 거대 모델에 이르는 주요 시각 - 언어 모델을 TimeScope 로 실행했습니다. 결과는 벤치마크의 가치를 강조합니다: 긴 영상을 잘 처리한다고 주장하는 모델조차도 실제 긴 영상 작업에는 여전히 어려움을 겪습니다. 이러한 발견은 명확한 패턴을 보여줍니다—특정 기간 주위의 성능 절벽, 정적 검색의 강점과 움직임 분석의 약점—and 모델을 훈련하기 위한 타겟 개선에 길을 엽니다. 자세한 결과 및 시각화를 확인하려면 위의 Hugging Face Space 를 확인하세요.

모델 크기는 모든 것이 아닙니다. Qwen 2.5-VL 3B 와 7B, 그리고 InternVL 2.5 모델의 2B, 4B, 8B 파라미터는 더 작은 대응물에 거의 구별할 수 없는 긴 영상 곡선을 보입니다. 모두 동일한 컨텍스트 길이에서 평평해지며, 단순히 파라미터를 확장한다고 해서 더 긴 시간적 지평을 자동으로 부여하지 않음을 보여줍니다.

Gemini 2.5-Pro 는 다른 리그에 있습니다. 그것은 1 시간 이상의 영상이 유지되는 높은 정확도를 가진 유일한 모델입니다.

작업 간의 트레이드 오프가 중요합니다. Qwen 2.5-VL 는 정보 - 합성 (OCR) 작업에서 빛을 발합니다—분산된 텍스트 스니펫을 식별하고 순서를 정하는 것—그러나 정확한 움직임 계수를 요구하는 세밀한 시간적 인식에서는 뒤처집니다.

TimeScope 는 "1 시간 분량의 영상 이해"가 여전히 슬로건에 불과함을 보여줍니다. 최신 모델조차도 시간적 추론 (temporal reasoning), 정보 종합 (information synthesis), 움직임 인식 (motion perception) 에서 어려움을 겪는 지점을 드러냄으로써, 이 벤치마크는 다중 모달 시스템의 훈련 및 평가 방식을 재고하도록 초대합니다.

데모 실행– 공영 공간을 탐색: https://huggingface.co/spaces/Apollo-LMMs/TimeScope

로컬 벤치마크 실행– 두 가지 간단한 명령어로 모델 평가를 수행:
pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.git python -m lmms_eval --model-path <your-model> --benchmark timescope

리더보드 참여– 점수를 제출하고 모델을 비교하세요.

이 벤치마크가 시간이 지남에 따라 영상을 더 잘 이해하는 모델 개발에 대한 커뮤니티의 꾸준한, 측정 가능한 진전을 돕기를 바랍니다.

TimeScope 의 모든 구성 요소를 오픈 소스로 공개합니다:

데이터셋: Apollo-LMMs/TimeScope
리더보드: Apollo-LMMs/TimeScope
평가 프레임워크: lmms-eval

AI 자동 생성 콘텐츠

원문 바로가기

TimeScope: 비디오 대형 다중 모달 모델이 얼마나 오래 갈 수 있나요?

요약

핵심 포인트

댓글