arXiv논문2026. 06. 15. 07:42

MLT-Dedup: 다중 레벨 표현 및 시공간 매칭을 통한 효율적인 대규모 온라인 비디오 중복 제거

요약

MLT-Dedup는 다중 레벨 표현과 시공간 매칭을 활용하여 대규모 온라인 비디오의 중복을 효율적으로 제거하는 프레임워크입니다. 미세 프레임 임베딩과 희소 클립 임베딩을 결합하여 검색 효율성과 매칭 정밀도를 동시에 높였습니다.

핵심 포인트

다중 레벨 비디오 인코더(ML-VE)를 통한 효율적 임베딩 추출
희소 임베딩 기반의 후보 검색과 미세 임베딩 기반의 정밀 매칭
DiF-SiM 모듈을 통한 신뢰할 수 있는 유사도 증거 제공
90% 정밀도 기준 온라인 반복률 91% 감소 달성
인덱싱 용량을 5배 증가시켜 더 넓은 후보 범위 확보 가능

온라인 플랫폼에서 사용자 생성 비디오 콘텐츠의 폭발적인 성장은 수많은 유사 중복 비디오(near-duplicate videos)—내용이 동일하거나 매우 유사하지만 부분적인 편집으로 인해 차이가 발생하는 비디오—의 등장과 함께 나타나고 있습니다. 이러한 중복 비디오는 사용자 경험을 저해하고 저장 공간 및 대역폭 비용을 증가시키므로, 대규모 비디오 중복 제거(video deduplication)는 매우 중요한 과제입니다. 기존의 비디오 중복 제거 프레임워크는 제한된 인덱스 예산 하에서 충분한 고품질 후보를 검색해야 하는 근본적인 문제와 효율성 및 정밀도(precision) 사이의 트레이드오프(trade-off) 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 다중 레벨 표현(Multi-Level representations)과 시공간 매칭(spatial-Temporal matching)을 활용하는 효율적인 대규모 온라인 비디오 중복 제거 프레임워크인 MLT-Dedup를 제안합니다. 우리의 접근 방식은 다중 레벨 비디오 인코더(Multi-Level Video Encoder, ML-VE)를 사용하여 미세한 프레임 레벨(frame-level) 임베딩과 희소한 클립 레벨(clip-level) 임베딩을 모두 추출합니다. 희소 임베딩(sparse embeddings)은 효율적인 후보 검색을 지원하며, 미세 임베딩(fine-grained embeddings)은 정밀한 쌍별 매칭(pairwise matching)을 위해 로드됩니다. 매칭 과정에서 우리는 중복된 시간적 세그먼트(temporal segments)를 찾아내고 정책 기반의 중복 제거 결정을 지원할 수 있는 신뢰할 수 있는 유사도 증거를 제공하는 차분 특징 강화 유사도 모듈(Differential Feature-enhanced Similarity Module, DiF-SiM)을 도입합니다. 실제 대규모 플랫폼에서의 광범위한 실험을 통해 MLT-Dedup가 90%의 정밀도(precision)에서 온라인 반복률을 91% 감소시킨다는 것을 입증했습니다. 또한, 우리의 희소 검색(sparse retrieval) 설계는 인덱싱 용량을 5배 증가시켜 실제 배포 환경에서 더 넓은 후보 범위를 확보할 수 있게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MLT-Dedup: 다중 레벨 표현 및 시공간 매칭을 통한 효율적인 대규모 온라인 비디오 중복 제거

요약

핵심 포인트

댓글