본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 07:42

MLT-Dedup: 다중 레벨 표현 및 시공간 매칭을 통한 효율적인 대규모 온라인 비디오 중복 제거

요약

MLT-Dedup는 다중 레벨 표현과 시공간 매칭을 활용하여 대규모 온라인 비디오의 중복을 효율적으로 제거하는 프레임워크입니다. 미세 프레임 임베딩과 희소 클립 임베딩을 결합하여 검색 효율성과 매칭 정밀도를 동시에 높였습니다.

핵심 포인트

  • 다중 레벨 비디오 인코더(ML-VE)를 통한 효율적 임베딩 추출
  • 희소 임베딩 기반의 후보 검색과 미세 임베딩 기반의 정밀 매칭
  • DiF-SiM 모듈을 통한 신뢰할 수 있는 유사도 증거 제공
  • 90% 정밀도 기준 온라인 반복률 91% 감소 달성
  • 인덱싱 용량을 5배 증가시켜 더 넓은 후보 범위 확보 가능

온라인 플랫폼에서 사용자 생성 비디오 콘텐츠의 폭발적인 성장은 수많은 유사 중복 비디오(near-duplicate videos)—내용이 동일하거나 매우 유사하지만 부분적인 편집으로 인해 차이가 발생하는 비디오—의 등장과 함께 나타나고 있습니다. 이러한 중복 비디오는 사용자 경험을 저해하고 저장 공간 및 대역폭 비용을 증가시키므로, 대규모 비디오 중복 제거(video deduplication)는 매우 중요한 과제입니다. 기존의 비디오 중복 제거 프레임워크는 제한된 인덱스 예산 하에서 충분한 고품질 후보를 검색해야 하는 근본적인 문제와 효율성 및 정밀도(precision) 사이의 트레이드오프(trade-off) 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 다중 레벨 표현(Multi-Level representations)과 시공간 매칭(spatial-Temporal matching)을 활용하는 효율적인 대규모 온라인 비디오 중복 제거 프레임워크인 MLT-Dedup를 제안합니다. 우리의 접근 방식은 다중 레벨 비디오 인코더(Multi-Level Video Encoder, ML-VE)를 사용하여 미세한 프레임 레벨(frame-level) 임베딩과 희소한 클립 레벨(clip-level) 임베딩을 모두 추출합니다. 희소 임베딩(sparse embeddings)은 효율적인 후보 검색을 지원하며, 미세 임베딩(fine-grained embeddings)은 정밀한 쌍별 매칭(pairwise matching)을 위해 로드됩니다. 매칭 과정에서 우리는 중복된 시간적 세그먼트(temporal segments)를 찾아내고 정책 기반의 중복 제거 결정을 지원할 수 있는 신뢰할 수 있는 유사도 증거를 제공하는 차분 특징 강화 유사도 모듈(Differential Feature-enhanced Similarity Module, DiF-SiM)을 도입합니다. 실제 대규모 플랫폼에서의 광범위한 실험을 통해 MLT-Dedup가 90%의 정밀도(precision)에서 온라인 반복률을 91% 감소시킨다는 것을 입증했습니다. 또한, 우리의 희소 검색(sparse retrieval) 설계는 인덱싱 용량을 5배 증가시켜 실제 배포 환경에서 더 넓은 후보 범위를 확보할 수 있게 합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0