arXiv논문2026. 06. 26. 11:17

저자원 텍사트 음성 합성(TTS)의 품질 격차 해소: Khmer 및 Korean을 위한 VoxCPM2의 LoRA 미세 조정

요약

VoxCPM2 모델을 활용하여 크메르어와 한국어와 같은 저자원 언어의 TTS 품질 격차를 해소하는 연구를 소개합니다. LoRA 미세 조정을 통해 소량의 파라미터만으로 크메르어의 음성 품질을 유의미하게 향상시켰습니다.

핵심 포인트

VoxCPM2 모델에 LoRA 어댑터를 적용하여 저자원 언어 성능 개선
크메르어의 MOS 점수를 3.85에서 4.23으로 크게 향상
전체 파라미터의 3.03% 미만만 학습하여 효율적인 적응 달성
기본 모델 성능이 높은 한국어에는 적응 효과가 미미하거나 품질 저하 발생

대규모 사전 학습된 텍스트 음성 합성 (TTS) 모델은 자원이 풍부한 언어에 대해서는 거의 인간과 유사한 소리를 내지만, 학습 데이터에서 희귀한 언어에 대해서는 훨씬 더 낮은 품질을 보입니다. 우리는 MiniCPM-4 언어 모델 백본(backbone)과 플로우 매칭 확산 디코더(flow-matching diffusion decoder)를 결합한 24억(2.4B) 파라미터 규모의 토크나이저 프리(tokenizer-free) TTS 모델인 VoxCPM2를 사용하여 Khmer(크메르어)와 Korean(한국어)에 대한 이러한 품질 격차를 연구합니다. 우리는 약 26시간 분량의 언어 태그가 지정된 하나의 공유 코퍼스(corpus)를 구축하고, 두 언어를 동시에 학습하여 언어 모델과 디코더 모두에 추가되는 단일 저차원 적응 (LoRA, Low-Rank Adaptation) 어댑터로 VoxCPM2를 적응시킵니다. 이 어댑터는 제로 초기화(zero-initialized)되어, 학습이 원래의 (제로샷, zero-shot) 모델에서 정확히 시작됩니다. 원어민 청취 테스트에서, 최적의 어댑터(rank 64)를 사용했을 때 Khmer의 평균 의견 점수 (MOS, Mean Opinion Score)는 3.85에서 4.23으로 상승하며, 이는 파라미터의 단 0.19%에서 3.03%만을 학습시키고도 얻은 매우 유의미한 이득입니다 (paired Wilcoxon test, p<0.001). 그러나 자동 손실(automatic loss)과 인간 평가 결과는 최적의 랭크(rank)에 대해 서로 일치하지 않습니다. 검증 손실(validation loss)은 rank 128에서 가장 낮았지만, MOS는 rank 64에서 정점을 찍었습니다. 동일한 어댑터는 기본 모델이 이미 잘 처리하는 언어인 Korean(한국어)에는 아무런 이득을 주지 못하며, 높은 랭크에서는 오히려 품질을 저하시킵니다. 따라서 적응(Adaptation)은 기본 모델이 진정으로 취약한 부분에서 주로 도움이 됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

저자원 텍사트 음성 합성(TTS)의 품질 격차 해소: Khmer 및 Korean을 위한 VoxCPM2의 LoRA 미세 조정

요약

핵심 포인트

댓글