NEST: 긴 영상 이해를 위한 시간적 서사 이벤트 구조
요약
긴 영상의 서사 구조를 이해하기 위한 새로운 데이터셋인 NEST를 소개합니다. 기존의 단순 검색 방식에서 벗어나, 영화와 같은 긴 영상 속 멀티모달 이벤트 간의 시간적 순서와 계층적 관계를 평가하는 데 중점을 둡니다.
핵심 포인트
- 긴 영상의 서사 구조 이해를 위한 NEST 데이터셋 제안
- 1,005편의 영화를 기반으로 한 102개의 멀티모달 서사 이벤트 주석 포함
- 이벤트 트리거 탐지, 지역화, 논거 및 관계 추출을 위한 베이스라인 제공
- 기존 벤치마크 대비 고차원적인 시간적 의존성 및 관계 평가 가능
시각-언어 모델(vision-language models)의 최근 발전은 점점 더 긴 비디오 시퀀스를 처리할 수 있게 해주었지만, 확장된 토큰 스트림을 처리하는 능력이 긴 영상의 서사 구조(narrative structure)를 이해하는 능력으로 직결되지는 않습니다. 기존의 긴 영상 벤치마크는 저수준의 행동(low-level actions)이 어떻게 이벤트(events)를 형성하는지, 이벤트가 시간에 따라 어떻게 상호작용하는지, 그리고 서사가 어떻게 진행되는지를 평가하기보다는 '건초더미 속 바늘 찾기(needle-in-a-haystack)'식의 검색에 집중하고 있습니다. 예를 들어, 모델이 긴 시간 간격, 개입된 장면, 또는 발생한 사건을 재구성하는 플래시백(flashbacks)에도 불구하고 실직과 같은 초기의 좌절이 나중에 관계 결별로 이어지는 것을 연결할 수 있는지와 같은 문제입니다. 우리는 1,005편의 전체 길이 영화(평균 98분)로 구성된 데이터셋인 NEST(Narrative Event Structures in Time for Long Video Understanding)를 소개합니다. 각 영화는 시각적 콘텐츠, 대화 및 오디오에 기반한 102개의 멀티모달 서사 이벤트(multimodal narrative events)로 주석이 달렸습니다. NEST는 시각적 콘텐츠, 대화 및 오디오에 기반한 구조화된 주석을 통해 멀티모달 서사 이벤트를 포착하며, 시간적 순서(temporal ordering), 계층적 구성(hierarchical composition), 장기 의존성(long-range dependencies)을 포함하여 서사 구조를 반영하는 관계를 통해 이들을 연결합니다. 우리는 이벤트 트리거 탐지(event trigger detection, ETD), 이벤트 지역화(event localization, EL), 이벤트 논거 추출(event argument extraction, EAE), 그리고 이벤트 관계 추출(event relation extraction, ERE)을 위한 베이스라인을 소개합니다. 이 벤치마크는 근거 기반 이벤트 발견(grounded event discovery)에 있어 매우 도전적이며, ETD는 8% 미만, EL은 6% 미만, EAE는 11% 미만을 기록했습니다. 반면, ERE는 이벤트가 주어졌을 때 더 다루기 쉬우며, 제로샷(zero-shot)에서 35.45% F1, 미세 조정(fine-tuning) 후에는 44.42% F1에 도달했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기