본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 19. 12:18

가이드된 확산 기반 음성 생성을 위한 음성 분류기의 재용도 변경

요약

기존의 Classifier guidance 방식은 별도의 분류기와 확산 모델이 필요하지만, 본 연구는 사전 학습된 음성 분류기를 확산 생성의 백본으로 재사용하는 효율적인 방법을 제안합니다. 경량 서브네트워크를 통해 메모리와 계산 비용을 줄이면서도 높은 품질의 음성 합성이 가능함을 입증했습니다.

핵심 포인트

  • 사전 학습된 음성 분류기를 확산 모델의 백본으로 재용도 변경
  • 단일 백본 모델을 통한 메모리 사용량 및 계산 비용 절감
  • 중간 분류기 표현을 활용한 경량 서브네트워크 학습 방식 제안
  • 판별 모델링과 조건부 음성 합성 간의 효율적인 연결 고리 마련

Classifier guidance (분류기 가이드)는 노이즈 조건부 분류기 (noise-conditioned classifier)를 사용하여 샘플링 과정을 목표 클래스로 유도함으로써 확산 생성 (diffusion generation)을 제어하는 방법입니다. Classifier guidance의 한 가지 단점은 분류기 (classifier)와 확산 모델 (diffusion model)이라는 별도로 학습된 두 개의 모델이 필요하다는 것입니다. 따라서 우리는 전통적으로 학습된 음성 분류기 (speech classifier)를 확산 생성 (diffusion generation)을 위한 백본 (backbone)으로 재용도 변경 (repurposed)하는 더 컴팩트한 대안을 연구합니다. log-Mel 공간에서 동결된 (frozen) 노이즈 조건부 분류기 (noise-conditioned classifier)로부터 시작하여, 우리는 중간 분류기 표현 (intermediate classifier representations)을 재사용하는 경량 서브네트워크 (lightweight subnetwork)를 부착하고, Denoising Score Matching (디노이징 스코어 매칭) 목적 함수 하에서 이 서브네트워크만을 학습시킵니다. 우리의 연구는 사전 학습된 (pretrained) 분류기가 조건부 생성 (conditional generation)을 위해 재용도 변경될 수 있음을 보여주며, 판별 모델링 (discriminative modeling)과 조건부 음성 합성 (conditional speech synthesis) 사이의 매력적인 가교를 제공합니다. 그 결과 단일 백본 (single-backbone) 모델 내에서 메모리 사용량 (memory footprint)과 계산 비용 (computational cost)을 줄이면서도 높은 음성 품질을 얻을 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0