LambdaMark: 강건성(Robustness)과 방사성(Radioactivity)을 위한 의미론적 오디오 워터마킹
요약
LambdaMark는 생성형 오디오의 무단 사용을 방지하기 위한 새로운 의미론적 오디오 워터마킹 체계입니다. 기존의 저수준 신호 삽입 방식과 달리 의미론적 잠재 표현에 정보를 삽입하여, 모델 미세 조정 후에도 워터마크가 유지되는 높은 방사성을 제공합니다.
핵심 포인트
- 의미론적 오디오 잠재 표현에 멀티 비트 워터마크 삽입
- 미세 조정된 다운스트림 모델에서도 유지되는 높은 방사성 확보
- 일반적인 왜곡 및 적대적 제거 공격에 대한 강력한 강건성
- 오디오 충실도를 유지하는 경량 인코더 및 디코더 구조
최근 생성형 오디오(generative audio)의 발전으로 음성 복제(voice cloning)가 점점 더 쉬워지면서, 음성 사기, 사칭 및 기타 형태의 무단 사용이 가능해졌습니다. 일반적인 공격 방식은 대상 화자의 녹음 데이터로 음성 생성 모델을 미세 조정(finetuning)하여, 해당 모델이 그 화자의 목소리로 음성을 합성할 수 있도록 합니다. 오디오 워터마킹(Audio watermarking)은 오디오에 탐지 가능한 신호를 삽입함으로써 유망한 방어 수단을 제공합니다. 실용적인 워터마크는 강건성(robustness)과 방사성(radioactivity)이라는 두 가지 핵심 속성을 충족해야 합니다. 기존의 오디오 워터마킹 방법들은 일반적으로 파형(waveform)이나 스펙트로그램(spectrogram)과 같은 저수준 표현(low-level representations)에 신호를 삽입하며, 이는 신호 수준의 조작에 취약하게 만들고 다운스트림 모델(downstream models)로의 전이를 제한합니다. 우리는 최초의 범용 방사성 워터마킹 체계인 LambdaMark를 소개합니다. 이전의 모든 접근 방식과 달리, LambdaMark는 의미론적 오디오 잠재 표현(semantic audio latent representations)에 멀티 비트(multi-bit) 워터마크 정보를 삽입함으로써 범용적인 방사성을 달성합니다. 우리의 워터마크는 의미론적 해석이 가능하므로, 미세 조정(finetuning)을 통해 다운스트림 모델에 의해 학습될 가능성이 더 높습니다. LambdaMark는 의미론적 오디오 표현에 멀티 비트 메시지 의존적 섭동(perturbations)을 주입하는 경량 워터마크 인코더(encoder)와 워터마크의 존재를 탐지하고 삽입된 비트 정보를 복구하는 디코더(decoder)를 포함합니다. 인코더와 디코더는 워터마크가 삽입된 오디오의 충실도(fidelity)를 유지하고, 비트 수준의 복구율을 높이며, 일반적인 왜곡(distortions) 및 적대적 제거(adversarial removal) 시도에 대한 강건성을 향상시키는 맞춤형 다중 구성 손실 함수(multi-component loss)를 사용하여 학습됩니다. 실험 결과, LambdaMark는 일반적인 왜곡 하에서도 완벽에 가까운 강건성을 달성함을 보여주었습니다. LambdaMark는 또한 평가된 모든 제거 공격에 대해 강건한 유일한 워터마크입니다. 나아가, LambdaMark는 일반적이고 강력한 방사성을 나타내며, 미세 조정된 모델의 생성된 출력물에서도 왜곡 및 적대적 제거 공격에 대해 강건함을 유지합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기