평범한 토큰 속에 숨겨진: 합성 오디오를 위한 단순하고 견고한 그래디언트 프리 (Gradient-Free) 워터마킹
요약
합성 오디오의 출처 증명을 위해 이산화 과정의 어휘 중복성을 활용한 새로운 그래디언트 프리(Gradient-free) 워터마킹 기술을 제안합니다. 기존의 미세 조정 방식 없이도 토큰 오류를 완화하여 탐지 성능과 견고성을 획기적으로 높였습니다.
핵심 포인트
- 이산화 어휘 중복성을 활용한 훈련 불필요(Training-free) 방식
- 커뮤니티 탐지를 통한 축소된 어휘집으로 토큰 오류 완화
- 기존 방식 대비 워터마크 탐지 가능성 수십 배 향상
- 오디오 수정에 대한 강력한 내장 견고함 달성
정책이 생성형 AI (Generative AI)의 역량을 따라잡음에 따라, 워터마킹 (Watermarking)은 콘텐츠 출처 증명 (Content Provenance) 노력의 핵심이 되고 있습니다. 자기회귀 모델 (Autoregressive models)을 위한 추론 시점 (Inference-time) 워터마크는 이산화 불일치 (Discretization inconsistencies)로 인해 연속적인 모달리티 (Continuous modalities)에 적합하지 않습니다. 기존 방법들은 모달리티 토크나이저 (Modality tokenizers)를 미세 조정 (Finetuning)함으로써 이를 극복하지만, 이는 워터마크의 훈련 불필요 (Training-free)라는 장점을 무효화합니다. 본 연구에서는 이산화 (Discretization)의 어휘 중복성 (Vocabulary redundancy)에 착안하여, 합성 오디오 (Synthetic audio)에 대한 강력하고 견고한 워터마킹을 위한 우아한 솔루션을 제안합니다. 우리는 토큰 오류 (Token errors)가 워터마크 탐지에 미치는 영향을 이론적으로 분석하며, 커뮤니티 탐지 (Community detection)를 통해 얻은 축소된 어휘집 (Reduced vocabulary)을 사용하여 이를 효과적으로 완화합니다. 철저한 실험을 통해 우리의 그래디언트 프리 (Gradient-free) 방식이 탐지 가능성을 수십 배 향상시키는 동시에, 오디오 수정에 대한 내장된 견고함 (Built-in robustness)을 달성할 수 있음을 보여줍니다. 광범위하게, 우리는 이산적 표현 학습 (Discrete representation learning)의 특성으로부터 자연스럽게 발생하는 멀티미디어 토큰 수준 (Token-level) 워터마크의 새로운 최첨단 (State-of-the-art) 기술을 발견했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기