본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 19:32

LASE: 인도어 크로스 스크립트 정체성 보존을 위한 언어 적대적 스피커 인코딩

요약

본 논문은 다국어 보이스 클로닝 및 TTS 시스템에서 발생하는 크로스 스크립트(cross-script) 정체성 손실 문제를 해결하기 위해 LASE(Language-Adversarial Speaker Encoder)를 제안합니다. 기존의 오프더쉐프 인코더들은 발음된 문자열이 바뀌면 동일한 화자의 목소리 특징을 제대로 유지하지 못하는 문제가 있었습니다. LASE는 음성 정체성을 보존하면서 언어 정보를 제거하는 두 가지 손실 함수(supervised contrastive loss 및 gradient-reversal cross-entropy)를 사용하여 훈련되었으며, 이로 인해 인도어와 같은 복잡한 크로스 스크립트 환경에서 현저히 개선된 성능을 보여줍니다.

핵심 포인트

  • LASE는 다국어 TTS/보이스 클로닝의 핵심 문제인 크로스 스크립트 정체성 손실 문제를 해결합니다.
  • 기존 인코더들은 문자열이 변경될 때 화자 고유의 목소리 특징을 잃는 문제가 있었습니다 (예: WavLM-base-plus-sv에서 인도어 코퍼스 사용 시 격차 감소).
  • LASE는 음성 정체성을 유지하면서 언어 정보를 제거하는 Gradient-Reversal Cross-Entropy(GRL) 손실 함수를 도입합니다.
  • LASE는 기존 모델 대비 크로스 스크립트 vs floor margin을 2.4~2.7배 증폭시키며, 적은 데이터로도 높은 성능을 유지합니다.

다국어 보이스 클로닝에 사용되는 스피커 인코더는 오디오가 어떤 문자열 (script) 으로 발음되었든 동일한 스피커를 동일하게 처리해야 합니다. 오프더쉐프 인코더들은 그렇지 않으며, 실패는 방언 조건부입니다.

영문, 힌디어, 텔루구어, 타밀어의 1043 쌍의 서양 방언 보이스 코퍼스에서, WavLM-base-plus-sv 는 동일한 목소리가 문자열을 변경할 때 0.082 의 절대적 코사인 유사도를 잃고 ECAPA-TDNN 은 0.105 를 잃습니다.

인도 방언 보이스 코퍼스가 1369 쌍일 경우, 이 격차는 WavLM-SV 에서 0.006 으로 줄어듭니다 (ECAPA-TDNN 은 0.044) .

이 누출은 크로스 스크립트 TTS 에서 가장 중요한 곳에서 발생합니다: 시스템이 인도어 훈련되지 않은 목소리를 인도어 문자열로 투영할 때.

우리는 LASE (Language-Adversarial Speaker Encoder) 를 제시합니다. 이는 고정된 WavLM-base-plus 위에 작은 projection head 로, 두 손실 함수로 훈련됩니다:

  1. 음성 정체성에 대한 supervised contrastive loss
  2. 4 언어 분류기에 대한 gradient-reversal cross-entropy (이러한 손실은 임베딩을 언어에 무관하게 만들지만 스피커 정보는 유지합니다)

LASE 는 8 개의 상용 다국어 보이스에서 합성된 1118 쌍의 품질 게이트드 크로스 스크립트 쌍으로 훈련되었습니다. LASE 의 잔류 격차는 두 코퍼스 모두에서 0 에 일관됩니다 (Delta = 0.013 Western, Delta = 0.026 Indian; bootstrap 95% CIs 는 모두 0 을 포함합니다) 및 두 기준에 대해 크로스 스크립트 vs floor margin 을 2.4-2.7 배 증폭시킵니다.

ECAPA+GRL ablation 은 GRL objective 가 어느 백본을 개선하지만 WavLM 선택도 기여함을 보입니다.

합성 멀티 스피커 디아리제이션에서, LASE 는 ECAPA-TDNN 과 크로스 스크립트 스피커 리콜 (0.788 vs 0.789) 을 일치하며 ~100 배 적은 훈련 데이터를 사용합니다.

우리는 r1 체크포인트, 두 코퍼스, 그리고 bootstrap recipe 을 공개합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0