본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 16:50

WavCube: Unifying Speech Representation for Understanding and Generation via

요약

WavCube는 음성 이해(Understanding)와 생성(Generation)에 필요한 서로 다른 표현 간의 호환성 문제를 해결하기 위해 설계된 통합 음성 모델입니다. 이 모델은 자기 감시 학습(SSL)에서 파생된 컴팩트 연속 잠재 변수를 사용하여, 의미 정보와 세밀한 음향 디테일을 모두 포착합니다. WavCube는 두 단계 훈련 스키마를 통해 원시 SSL 특징의 결함을 보완하고, 높은 압축률에서도 기존 표현과 동등하거나 우수한 재구성 품질 및 TTS 성능을 달성하여 통합된 음성 시스템 구현에 기여합니다.

핵심 포인트

  • WavCube는 이해(SSL 기반)와 생성(음향 디테일)의 분산된 특징 문제를 해결하는 통합 잠재 변수 표현입니다.
  • 두 단계 훈련 스키마를 사용하며, 첫 단계에서 의미 병목 구조로 원시 SSL 특징을 정제하고, 두 번째 단계에서 재구성을 통해 음향 세부 사항을 주입합니다.
  • 8배 차원 압축에도 불구하고 기존 음성 표현과 동등한 재구성 품질 및 시의존적 TTS 성능을 보여줍니다.
  • SUPERB-SG 벤치마크 등 다양한 작업(음성 향상, 분리, 변환)에서 뛰어난 성능을 입증했습니다.

Speech 이해와 생성을 통합하는 것은 통합된 음성 모델을 구축하기 위한 결정적인 단계입니다. 그러나 이 두 가지 작업에 필요한 서로 다른 표현은 현재 상당한 호환성 문제를 야기합니다. 일반적으로 의미 중심의 특징은 자기 감시 학습 (SSL) 에서 학습되며, 음향 중심의 특징은 재구성에서 학습됩니다. 이러한 분산된 표현은 진정한 통합 음성 시스템의 실현을 방해합니다. 우리는 WavCube 를 제시합니다. WavCube 는 SSL 음성 인코더에서 유래한 컴팩트 연속 잠재 변수로, 동시에 음성 이해, 재구성, 및 생성을 지원합니다. WavCube 는 두 단계 훈련 스키엄을 사용합니다. 1 단계는 확산 (diffusion) 을 위해 원시 SSL 특징이 처리 불가능하게 만드는 off-manifold redundancy 를 필터링하는 의미 병목 구조를 훈련합니다. 2 단계는 엔드 투 엔드 재구성을 통해 세밀한 음향 세부 사항을 주입하며, 의미 고정화 손실은 표현이 원래 의미 manifold 내부에 뿌리내리게 있음을 보장합니다. 포괄적인 실험은 WavCube 가 SUPERB 에서 WavLM 성능에 근접함을 보여줍니다. 8x 차원 압축에도 불구하고, 재구성 품질은 기존 음향 표현과 동등하며, 시의존적 TTS 성능을 제공하며 훈련 수렴 속도가 현저히 빠릅니다. SUPERB-SG 벤치마크에서 음성 향상, 분리 및 목소리 변환 작업에서 뛰어난 성과를 보입니다. 체계적인 ablations 은 WavCube 의 두 단계 레시피가 생성 모델링을 위한 SSL 특징의 내재적 결함을 해결함을 보여줍니다. 통합된 음성 시스템의 미래를 여는 것입니다. 코드와 체크포인트는 https://github.com/yanghaha0908/WavCube 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0