arXiv논문2026. 04. 28. 15:33

연속 확산 음성 언어 모델의 스케일링 특성

요약

본 논문은 기존의 이산 자기회귀(AR) 방식보다 연속 확산(CD) 기반의 음성 언어 모델(SLM)이 더 실현 가능함을 탐구합니다. 연구진은 CD SLM을 통해 스케일링 법칙을 분석하고, 계산 규모가 커질수록 최적 토큰-파라미터 비율이 감소하는 경향을 발견했습니다. 이 접근 방식은 빠른 추론의 잠재력을 보여주지만, 장문 일관성 확보는 여전히 해결해야 할 과제로 남아있습니다.

핵심 포인트

연속 확산(CD) 기반 SLM이 기존 이산 자기회귀(AR) 방식보다 음성 언어 모델 구현에 더 적합하다.
CD SLM의 스케일링 분석 결과, 계산 규모가 커질수록 최적 토큰-파라미터 비율이 감소하는 경향을 보인다.
대규모 데이터와 파라미터를 통해 감정 표현, 억양, 다 화자/다국어 음성 생성이 가능하다.
CD SLM의 성능 향상에도 불구하고 장문 일관성을 확보하는 것이 여전히 중요한 과제이다.

음성 전용 음성 언어 모델 (SLM) 은 텍스트 및 텍스트-음성 모델에 비해 성능에서 뒤처지고 있으며, 최근 이산 자기회귀 (AR) SLM 의 경우 텍스트 모델을 따라잡기 위해 상당한 계산 자원과 데이터 요구량이 필요함을 시사합니다. 연속 음성을 AR 에 적용할 때 병목 현상이 발생하므로, 우리는 연속 확산 (CD) SLM 이 더 실현 가능한지 탐구합니다. SLM 의 언어적 품질을 정량화하기 위해 우리는 음소 젠슨-샤논 발산 (pJSD) 지표를 도입합니다. 우리의 분석은 CD SLM 이 AR 의 동작을 반영하여 검증 손실과 pJSD 에 대해 스케일링 법칙을 보이며, 계산 규모가 커질수록 최적의 토큰-파라미터 비율이 감소함을 보여줍니다. 그러나 후자의 경우 손실은 데이터와 모델 크기의 선택에 둔감해져 빠른 추론의 가능성을 시사합니다. 수천만 시간 이상의 대화 데이터를 바탕으로 16B 파라미터 규모의 CD SLM 을 스케일링함으로써 감정을 표현하고, 억양을 가지며, 다 화자, 다국어 음성을 생성할 수 있으나, 장문 일관성 확보는 여전히 중요한 과제로 남아있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

연속 확산 음성 언어 모델의 스케일링 특성

요약

핵심 포인트

댓글