arXiv논문2026. 06. 19. 12:18

가이드된 확산 기반 음성 생성을 위한 음성 분류기의 재용도 변경

요약

기존의 Classifier guidance 방식은 별도의 분류기와 확산 모델이 필요하지만, 본 연구는 사전 학습된 음성 분류기를 확산 생성의 백본으로 재사용하는 효율적인 방법을 제안합니다. 경량 서브네트워크를 통해 메모리와 계산 비용을 줄이면서도 높은 품질의 음성 합성이 가능함을 입증했습니다.

핵심 포인트

사전 학습된 음성 분류기를 확산 모델의 백본으로 재용도 변경
단일 백본 모델을 통한 메모리 사용량 및 계산 비용 절감
중간 분류기 표현을 활용한 경량 서브네트워크 학습 방식 제안
판별 모델링과 조건부 음성 합성 간의 효율적인 연결 고리 마련

Classifier guidance (분류기 가이드)는 노이즈 조건부 분류기 (noise-conditioned classifier)를 사용하여 샘플링 과정을 목표 클래스로 유도함으로써 확산 생성 (diffusion generation)을 제어하는 방법입니다. Classifier guidance의 한 가지 단점은 분류기 (classifier)와 확산 모델 (diffusion model)이라는 별도로 학습된 두 개의 모델이 필요하다는 것입니다. 따라서 우리는 전통적으로 학습된 음성 분류기 (speech classifier)를 확산 생성 (diffusion generation)을 위한 백본 (backbone)으로 재용도 변경 (repurposed)하는 더 컴팩트한 대안을 연구합니다. log-Mel 공간에서 동결된 (frozen) 노이즈 조건부 분류기 (noise-conditioned classifier)로부터 시작하여, 우리는 중간 분류기 표현 (intermediate classifier representations)을 재사용하는 경량 서브네트워크 (lightweight subnetwork)를 부착하고, Denoising Score Matching (디노이징 스코어 매칭) 목적 함수 하에서 이 서브네트워크만을 학습시킵니다. 우리의 연구는 사전 학습된 (pretrained) 분류기가 조건부 생성 (conditional generation)을 위해 재용도 변경될 수 있음을 보여주며, 판별 모델링 (discriminative modeling)과 조건부 음성 합성 (conditional speech synthesis) 사이의 매력적인 가교를 제공합니다. 그 결과 단일 백본 (single-backbone) 모델 내에서 메모리 사용량 (memory footprint)과 계산 비용 (computational cost)을 줄이면서도 높은 음성 품질을 얻을 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

가이드된 확산 기반 음성 생성을 위한 음성 분류기의 재용도 변경

요약

핵심 포인트

댓글