IWSLT 2026 교차 언어 음성 복제(Cross-Lingual Voice Cloning)에 대한 KIT의 제출 논문
요약
IWSLT 2026을 위해 KIT가 제출한 이 논문은 화자의 정체성을 유지하며 타겟 언어로 음성을 복제하는 기술을 다룹니다. FishAudio-S2-Pro 모델을 기반으로 언어 태그 프롬프팅과 강화학습 미세 조정을 통해 악센트 누출을 줄이고 명료도를 높이는 방법을 제안합니다.
핵심 포인트
- 언어 태그 프롬프팅을 통한 악센트 누출 감소 및 언어 제어 개선
- 강화학습(RL) 미세 조정을 통한 음성 명료도 향상
- 참조 조건부 어휘 매칭을 통한 도메인 특화 용어 발음 개선
- IWSLT 2026 교차 언어 음성 복제 트랙의 핵심 과제 해결
교차 언어 음성 복제 (Cross-lingual voice cloning)는 소스 언어 (source-language) 참조로부터 화자의 정체성 (speaker identity)을 유지하면서 대상 언어 (target language)로 음성을 생성하는 것을 목표로 합니다. 이 작업은 음성 번역 (speech translation)의 핵심이며, IWSLT 2026 교차 언어 음성 복제 (Cross-Lingual Voice Cloning) 트랙의 중점 과제입니다. 주요 과제는 악센트 변이 (accent variation) 및 도메인 특화 어휘 (domain-specific vocabulary)가 존재하는 상황에서 명료도 (intelligibility)와 자연스러움 (naturalness)을 유지하는 것입니다. 우리는 다국어 텍스트 음성 변환 (multilingual text-to-speech) 모델인 FishAudio-S2-Pro를 기반으로 구축하였으며, 언어 제어 (language control)를 개선하고 악센트 누출 (accent leakage)을 줄이기 위해 언어 태그 프롬프팅 (language tag prompting)을 도입합니다. 나아가 작업 적응 (task adaptation)을 위해 강화학습 (RL) 미세 조정 (fine-tuning)을 적용하였으며, 명료도 (intelligibility)의 향상을 관찰했습니다. 마지막으로, 어휘적 중첩 (lexical overlap)이 존재할 때 도메인 특화 용어의 발음을 개선하는 참조 조건부 어휘 매칭 (reference-conditioned lexical matching) 방법을 제안합니다. 결과에 따르면 언어 프롬프팅 (language prompting)이 가장 큰 이득을 제공하는 반면, 어휘 매칭 (lexical matching)은 매칭된 하위 집합 (matched subsets)에서 일관된 개선을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기