arXiv논문2026. 06. 05. 13:48

일대다 시공간적 근거 제시(One-to-Many Temporal Grounding)를 향하여

요약

하나의 텍스트 질의에 대해 여러 비디오 세그먼트를 찾아내는 '일대다 시공간적 근거 제시(OMTG)' 연구를 소개합니다. 새로운 벤치마크와 데이터셋을 구축하고, CoT 추론을 활용한 보상 함수를 통해 기존 MLLM의 한계를 극복했습니다.

핵심 포인트

OMTG(One-to-Many Temporal Grounding) 개념 정의 및 벤치마크 구축
이벤트 기수 인지 능력을 높이기 위한 새로운 평가 지표(C-Acc, EtF1) 도입
56,000개의 고품질 OMTG 데이터셋 큐레이션
CoT 추론 기반의 시공간적 및 캡션 보상 함수 개발
Gemini 2.5 Pro 대비 성능 대폭 향상 달성

시공간적 근거 제시 (Temporal Grounding, TG)는 텍스트 질의(textual query)에 대응하는 비디오 세그먼트(video segments)를 국지화(localize)하는 것을 목표로 합니다. 기존 연구는 주로 단일 세그먼트 검색(single-segment retrieval)에 집중해 왔습니다. 그러나 실제 시나리오에서는 하나의 질의에 대해 여러 개의 분리된 세그먼트를 국지화해야 하는 경우가 빈번하며, 우리는 이러한 설정을 일대다 시공간적 근거 제시 (One-to-Many Temporal Grounding, OMTG)라고 명명합니다. 일대일(one-to-one) 설정에 최적화된 기존의 최첨단 멀티모달 거대언어모델 (MLLMs)은 이러한 맥락에서 어려움을 겪으며, 이벤트 기수(event cardinality) 인지 능력의 부족으로 인해 종종 0에 가까운 점수를 기록합니다. 이 격차를 해소하기 위해, 우리는 세 가지 핵심 기여를 포함하는 체계적인 솔루션을 제시합니다. 첫째, 우리는 최초의 포괄적인 OMTG 벤치마크를 구축하고, 평가 지표로서 카운트 정확도 (Count Accuracy, C-Acc)와 유효 시공간적 F1 (Effective Temporal F1, EtF1)을 도입합니다. 둘째, 정교한 구축 파이프라인을 통해 56,000개의 샘플로 구성된 고품질 OMTG 데이터셋을 큐레이션합니다. 셋째, OMTG를 위해 특별히 설계된 새로운 시공간적 및 캡션 보상 함수 (temporal and caption reward functions)를 개발합니다. 특히, 캡션 보상은 조밀한 비디오 캡션 (dense video captions)에 대한 사고의 사슬 (Chain-of-Thought, CoT) 추론을 활용하여, 정책 최적화 (policy optimization)가 정확성 (preciseness)과 완전성 (completeness)을 모두 향하도록 명시적으로 유도합니다. 광범위한 실험을 통해 우리의 모델은 OMTG Bench에서 43.65%라는 새로운 최첨단 EtF1을 달성하였으며, 이는 Gemini 2.5 Pro 및 Seed-1.8보다 각각 15.85%와 15.61% 더 높은 성능입니다.

AI 자동 생성 콘텐츠

원문 바로가기

일대다 시공간적 근거 제시(One-to-Many Temporal Grounding)를 향하여

요약

핵심 포인트

댓글