다층적 이벤트 의미론 마이닝을 통한 효과적인 긴 영상 이벤트 예측 연구
요약
긴 영상의 복잡한 서사를 이해하고 미래 이벤트를 예측하기 위한 VISTA 프레임워크를 제안합니다. 캐릭터 중심의 시각적 프롬프트와 지식 강화 반복 검색 전략을 통해 세부 의미론과 서사적 일관성을 동시에 강화합니다.
핵심 포인트
- 긴 영상 이벤트 예측을 위한 VISTA 프레임워크 제안
- 캐릭터 중심 시각적 프롬프트로 세부 의미론 추출 강화
- 지식 강화 반복 검색을 통한 논리적 이벤트 체인 구축
- 제안 후 검색 전략을 통한 미래 지향적 이벤트 예측
미래의 이벤트를 정확하게 예측하는 것은 다양한 도메인에서 콘텐츠 이해 및 의사결정의 근간이 됩니다. 기존 연구는 주로 텍스트나 짧은 영상 시나리오에 집중해 왔으나, 방대한 멀티모달 (Multimodal) 문맥과 더 복잡한 서사(Narrative)를 특징으로 하는 긴 영상 이벤트 예측(Long-video event prediction)은 여전히 미개척 분야로 남아 있습니다. 한편, 거대 언어 모델 (LLMs) 및 시각-언어 모델 (VLMs)을 기반으로 구축된 최신 긴 영상 언어 모델 (LVLMs)은 긴 영상 질의응답 및 요약 분야에서 가능성을 보여주었으나, 이벤트 관련 세부 사항을 정밀하게 추출하거나 이벤트 전개에 대한 미세한 분석을 수행하지 못하기 때문에 이벤트 예측으로 일반화하는 데 어려움을 겪고 있습니다. 이러한 격차를 해소하기 위해, 본 연구에서는 긴 영상 이벤트 예측을 위한 다층적 이벤트 의미론 마이닝 (Multi-level event semantics mining) 프레임워크인 VISTA를 제안합니다. 우선, VISTA는 캐릭터 중심의 시각적 프롬프트 (Character-centric visual prompt)를 적용하여 이벤트 관련 시각적 세부 사항을 정밀하게 추출함으로써 세부 수준의 의미론 (Detail-level semantics)을 강화합니다. 이어서, 지식 강화 반복 검색 (Knowledge-enhanced iterative retrieval) 전략을 채택하여 LLM이 논리적으로 일관된 이벤트 체인을 점진적으로 구축하도록 유도함으로써 이벤트 수준의 서사 (Event-level narratives)를 개선합니다. 최종적으로, VISTA는 인간과 유사한 '제안 후 검색 (Propose-then-retrieve)' 전략을 채택하여 다양하고 미래 지향적인 제안을 생성하고 다층적 단서들을 통합함으로써, 강력하고 정확한 예측을 수행합니다. 실제 데이터셋에 대한 광범위한 실험을 통해 긴 영상 이벤트 예측에 대한 VISTA의 효과를 검증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기