arXiv논문2026. 06. 15. 08:17

재구성 왜곡에 대한 강건성을 위한 특징 정렬 음성 워터마킹 (Feature-Aligned Speech Watermarking)

요약

음성 재구성 모델에 의한 워터마크 억제를 방지하기 위해 특징 정렬(Feature-Aligned) 방식을 제안합니다. 워터마크를 음성 특징 분포와 정렬하여 인지 불가능성을 유지하면서도 재구성 왜곡에 대한 강건성을 높였습니다.

핵심 포인트

기존 워터마킹의 강건성-충실도 트레이드오프 문제 해결
사전 학습된 음성 코덱을 활용한 의사 음성 워터마크 생성
VAD 및 지각 손실을 통한 유성 구간 내 삽입 유도
학습 및 미학습 재구성 모델 모두에서 높은 강건성 입증

오디오 워터마킹 (Audio watermarking)은 인지되지 않는 상태를 유지하면서 오디오에 식별 가능한 정보를 삽입하는 것을 목표로 합니다. 기존 방법들은 지각적 품질 (perceptual quality)을 보존하기 위해 고충실도 (high-fidelity), 저에너지 (low-energy) 설계를 채택하지만, 결과적으로 생성된 워터마크는 음성 재구성 모델 (speech reconstruction models)에 의한 억제 상황에서 강건성 (robustness)이 부족합니다. 기존 설계에 내재된 강건성-충실도 트레이드오프 (robustness-fidelity trade-off), 즉 워터마크 에너지를 높이면 강건성은 향상되지만 충실도가 감소하는 문제 때문에 강건성을 개선하는 것은 매우 어렵습니다. 이 문제를 해결하기 위해, 우리는 워터마크를 원래 음성 특징 분포 (speech feature distribution)와 정렬하여, 인지 불가능성을 유지하면서도 더 높은 워터마크 에너지로 강건성을 향상시킬 수 있는 특징 정렬 (feature-aligned) 워터마킹 방법을 제안합니다. 우리는 사전 학습된 음성 코덱 (pretrained speech codec)을 사용하여 의사 음성 (pseudo-speech) 워터마크를 생성하고 이를 입력 오디오의 스펙트로그램 (spectrogram)에 융합하며, VAD 손실 (VAD loss) 및 지각 손실 (perceptual losses)을 사용하여 유성 구간 (voiced regions) 내에서의 삽입을 유도합니다. 실험 결과, 우리의 방법은 기존 방식과 대등한 수준의 인지 불가능성을 유지하면서도, 학습된(seen) 및 미학습된(unseen) 음성 재구성 모델 모두에서 강건성을 실질적으로 향상시킴을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

재구성 왜곡에 대한 강건성을 위한 특징 정렬 음성 워터마킹 (Feature-Aligned Speech Watermarking)

요약

핵심 포인트

댓글