arXiv논문2026. 05. 21. 11:11

USV: 사용자 생성 숏폼 비디오 이해를 향하여

요약

본 논문은 사용자 생성(UGC) 숏폼 비디오의 고수준 의미론적 이해를 위한 새로운 데이터셋인 USV를 제안합니다. USV는 별도의 수동 검증 없이 수집된 약 224K개의 비디오를 포함하며, 기존의 인스턴스 수준 인식을 넘어 주제 인식 및 비디오-텍스트 검색 태스크를 지원합니다. 이를 위해 MMF-Net과 VTCL이라는 두 가지 통합 베이스라인 모델을 함께 제시합니다.

핵심 포인트

사용자 생성(UGC) 숏폼 비디오에 특화된 USV 데이터셋 공개
약 224K개의 비디오를 포함하며 수동 트리밍 없이 레이블 쿼리로 수집됨
단순 인스턴스 인식을 넘어 주제 인식(Topic recognition) 및 비디오-텍스트 검색 태스크 수행 가능
MMF-Net(다중 모달리티 융합 네트워크) 및 VTCL(비디오-텍스트 대조 학습) 베이스라인 제안

최근 몇 년 동안 여러 대규모 비디오 데이터셋이 발표되었으며, 이는 비디오 이해 (Video Understanding) 분야를 발전시켜 왔습니다. 하지만 새롭게 등장한 사용자 생성 (User-generated) 숏폼 비디오는 거의 연구되지 않았습니다. 본 논문은 고수준의 의미론적 비디오 이해 (High-level semantic video understanding)를 위한 사용자 생성 숏폼 비디오 데이터셋인 USV를 제시합니다. 이 데이터셋은 별도의 수동 검증이나 트리밍 (Trimming) 없이 레이블 쿼리 (Label queries)를 통해 UGC 플랫폼에서 수집된 약 224K개의 비디오를 포함하고 있습니다. 비디오 이해 분야가 최근 몇 년간 상당한 개선을 이루었음에도 불구하고, 대부분의 연구는 인스턴스 수준의 인식 (Instance-level recognition)에 집중되어 있으며, 이는 비디오의 고수준 의미론적 정보의 표현 (Representation)을 학습하기에는 충분하지 않습니다. 따라서 우리는 USV를 바탕으로 주제 인식 (Topic recognition)과 비디오-텍스트 검색 (Video-text retrieval)이라는 두 가지 태스크를 추가로 설정하였습니다. 우리는 주제 인식 태스크와 비디오-텍스트 검색 태스크를 각각 해결하기 위해 통합적이고 효과적인 두 가지 베이스라인 방법인 다중 모달리티 융합 네트워크 (Multi-Modality Fusion Network, MMF-Net)와 비디오-텍스트 대조 학습 (Video-Text Contrastive Learning, VTCL)을 제안하며, 향후 연구를 촉진하기 위해 종합적인 벤치마크를 수행합니다. 우리의 프로젝트 페이지는 https://usvdataset.github.io 입니다.

AI 자동 생성 콘텐츠

원문 바로가기

USV: 사용자 생성 숏폼 비디오 이해를 향하여

요약

핵심 포인트

댓글