비디오 복사 탐지를 위한 효율적인 논리 게이트 네트워크
요약
기존 딥러닝 모델의 높은 연산 비용과 디스크립터 크기 한계를 극복하기 위해, 본 논문은 이산적인 로직 게이트 네트워크(Logic Gate Networks, LGN)를 활용한 비디오 복제 탐지 프레임워크를 제안합니다. LGN은 부동소수점 특징 추출기를 간결한 로직 기반 표현으로 대체하여, 모델을 순수한 불리언 회로로 이산화할 수 있게 합니다. 이를 통해 메모리 효율성과 추론 속도를 획기적으로 개선했으며, 초당 11k 샘플 이상의 빠른 처리 속도를 달성했습니다.
핵심 포인트
- LGN은 기존의 부동소수점 특징 추출기를 로직 기반 표현으로 대체하여 계산 비용을 대폭 절감합니다.
- 제안된 프레임워크는 공격적인 프레임 축소, 이진 전처리, 학습 가능한 LGN 임베딩 모델을 결합했습니다.
- 학습 후 모델은 순수 불리언 회로로 이산화되어 메모리 효율성과 속도가 극대화됩니다.
- 실험 결과, LGN 기반 모델은 기존 모델 대비 경쟁적이거나 우수한 정확도와 랭킹 성능을 유지하면서 디스크립터 크기를 수 배(orders of magnitude) 작게 만들었습니다.
비디오 복사 탐지를 위한 효율적인 논리 게이트 네트워크
비디오 복사 탐지(Video Copy Detection)는 다양한 시각적 왜곡(visual distortions) 하에서 강력한 유사성 추정(similarity estimation)을 요구하며, 매우 큰 규모로 작동해야 합니다. 딥 신경망(deep neural networks)은 높은 성능을 달성하지만, 계산 비용(computational cost)과 디스크립터 크기(descriptor size)가 고처리량 시스템(high-throughput systems)에서의 실제 배포를 제한합니다. 본 연구에서는 이산화 가능한 논리 게이트 네트워크(differentiable Logic Gate Networks, LGNs) 기반의 비디오 복사 탐지 프레임워크를 제안하며, 이는 기존 부동 소수점(floating-point) 특징 추출기(feature extractors)를 작고 논리 기반의 표현(logic-based representations)으로 대체합니다. 저희 접근 방식은 공격적인 프레임 축소화(aggressive frame miniaturization), 이진 전처리(binary preprocessing), 그리고 논리 연산(logical operations)과 상호 연결(interconnections)을 모두 학습하는 훈련 가능한 LGN 임베딩 모델을 결합합니다. 훈련 후, 이 모델은 순수하게 부울 회로(Boolean circuit)로 이산화될 수 있어 극도로 빠르고 메모리 효율적인 추론(inference)이 가능합니다. 저희는 여러 데이터셋 폴드(dataset folds)와 난이도 수준에 걸쳐 다양한 유사성 전략(similarity strategies), 이진화 방식(binarization schemes), 그리고 LGN 아키텍처를 체계적으로 평가했습니다. 실험 결과는 LGN 기반 모델이 이전 모델과 비교하여 경쟁적이거나 우수한 정확도 및 순위 성능을 달성하는 동시에, 디스크립터 크기는 여러 자릿수(orders of magnitude) 작고 초당 11k 샘플을 초과하는 추론 속도를 제공함을 입증합니다. 이러한 발견은 논리 기반 모델이 확장 가능하고 자원 효율적인 비디오 복사 탐지를 위한 유망한 대안임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기