arXiv논문2026. 06. 23. 14:26

생성형 음성 언어 모델의 음성 재합성 및 연속성에 미치는 세그멘테이션 너비와 클러스터 크기의 영향에 관한 연구

요약

본 논문은 생성형 음성 언어 모델(GSLM)에서 세그멘테이션 너비와 클러스터 크기가 음성 재합성 및 연속성에 미치는 영향을 연구합니다. 낮은 비트레이트 설정에서도 자연스러운 음성 합성이 가능함을 입증하며, 기존 설정의 중복성을 지적합니다.

핵심 포인트

다양한 비트레이트 설정이 음성 합성 및 연속 성능에 미치는 영향 분석
낮은 비트레이트에서도 이해 가능하고 자연스러운 음성 합성 가능성 입증
기존 GSLM 설정이 효과적인 음성 생성을 위해 다소 중복적일 수 있음을 시사
LLM 기반 지표가 인간의 주관적 점수와 높은 상관관계를 보임을 확인

생성형 음성 언어 모델링 (Generative Spoken Language Modeling, GSLM)은 텍스트 전사 (textual transcription) 대신 이산적 음성 표현 (discrete speech representations)을 사용하여 언어 모델 (LMs)을 학습함으로써 텍스트가 없는 음성 모델링을 가능하게 합니다. 본 논문에서는 다양한 비트레이트 (bitrates)를 가진 이산적 음성 표현을 사용하여 음성 합성 (speech synthesis) 및 연속 (continuation) 작업에서 GSLM의 성능을 조사합니다. 우리는 고정된 너비로 음성 표현을 세그멘테이션 (segment)하고 다양한 클러스터 크기 (cluster sizes)에서 K-means 모델을 학습시켜 다양한 비트레이트 설정을 도출합니다. 우리는 베이스라인 (baseline)보다 낮은 비트레이트 설정에서도 이해 가능하고 자연스러운 음성을 합성할 수 있음을 입증합니다. 또한, 음성 연속 품질은 여러 지표에 걸쳐 낮은 비트레이트에서도 안정적으로 유지되며, 이는 기존의 GSLM 설정이 효과적인 음성 생성을 위해 중복적일 수 있음을 시사합니다. LLM 기반 지표가 기존 지표보다 인간의 주관적 점수와 더 높은 상관관계를 보이지만, 여전히 낮은 수준에 머물러 있어 더욱 안정적인 자동 평가 방법의 필요성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

생성형 음성 언어 모델의 음성 재합성 및 연속성에 미치는 세그멘테이션 너비와 클러스터 크기의 영향에 관한 연구

요약

핵심 포인트

댓글