arXiv논문2026. 05. 28. 12:10

비디오 내 중요 인물 식별을 위한 다중 모달 시공간 단서 추출

요약

비디오 내 핵심 인물을 식별하기 위해 시공간적 맥락과 텍스트 근거를 활용하는 VIP-Net 프레임워크를 제안합니다. 시간적 중요도 변화(TIS) 문제를 해결하기 위해 새로운 데이터셋 Temporal-VIP와 다중 모달 단서 추출 기술을 도입했습니다.

핵심 포인트

시간적 중요도 변화(TIS) 현상을 해결하는 VIP-Net 개발
9,249개 세그먼트로 구성된 Temporal-VIP 데이터셋 공개
사회적 단서 인코더(SCE)와 시간적 중요도 교정기(TIR) 활용
기존 모델 대비 높은 정확도(67.3%) 및 LLM 기반 근거 유사도 달성

비디오 장면에서 핵심 인물을 식별하는 것은 자동 비디오 편집 및 지능형 감시와 같은 응용 분야에서 필수적입니다. 현재의 방법들은 주로 정적 이미지와 즉각적인 시각적 단서 (visual cues)에 집중하고 있어, 비디오에 포함된 풍부한 시공간 정보 (spatio-temporal information)를 간과하고 있습니다. 이는 시간적 중요도 변화 (Temporal Importance Shift, TIS) 현상으로 이어지는데, 초기 프레임에서 중요하다고 판단된 인물이 전체 시간적 맥락 (temporal context)이 고려됨에 따라 중요도가 낮아질 수 있습니다. 이를 해결하기 위해, 우리는 텍스트 근거 (textual rationales)를 제공하면서 비디오 내에서 가장 영향력 있는 인물을 자동으로 식별하는 것을 목표로 하는 비디오 중요 인물 (Video Important Person, VIP) 식별 작업을 도입합니다. 우리는 11개 카테고리에 걸쳐 정렬된 중요도 근거를 포함하는 9,249개의 비디오 세그먼트로 구성된 대규모 근거 주석 데이터셋인 Temporal-VIP를 제시합니다. TIS를 완화하기 위해, 우리는 다중 모달 시공간 단서를 추출하기 위한 사회적 단서 인코더 (Social Cue Encoder, SCE), 계층적 단서 융합 및 교차 모달 정렬 (cross-modal alignment)을 위한 시간적 중요도 교정기 (Temporal Importance Rectifier, TIR), 그리고 인물을 순위 매기기 위한 VIP 추론 (VIP Inference)을 포함하는 VIP-Net 프레임워크를 개발합니다. 실험 결과에 따르면, VIP-Net은 67.3%의 정확도를 달성하여 최신 모델들(37.5%-53.9%)을 크게 능가하였으며, 특징 가이드 LLM 정제 (feature-guided LLM refinement)를 통해 정답(ground truth)과 0.63의 평균 근거 유사도를 기록했습니다. 데이터셋과 코드는 https://huggingface.co/datasets/yml2002/Temporal-VIP 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

비디오 내 중요 인물 식별을 위한 다중 모달 시공간 단서 추출

요약

핵심 포인트

댓글