WavCube: Unifying Speech Representation for Understanding and Generation via

Speech 이해와 생성을 통합하는 것은 통합된 음성 모델을 구축하기 위한 결정적인 단계입니다. 그러나 이 두 가지 작업에 필요한 서로 다른 표현은 현재 상당한 호환성 문제를 야기합니다. 일반적으로 의미 중심의 특징은 자기 감시 학습 (SSL) 에서 학습되며, 음향 중심의 특징은 재구성에서 학습됩니다. 이러한 분산된 표현은 진정한 통합 음성 시스템의 실현을 방해합니다. 우리는 WavCube 를 제시합니다. WavCube 는 SSL 음성 인코더에서 유래한 컴팩트 연속 잠재 변수로, 동시에 음성 이해, 재구성, 및 생성을 지원합니다. WavCube 는 두 단계 훈련 스키엄을 사용합니다. 1 단계는 확산 (diffusion) 을 위해 원시 SSL 특징이 처리 불가능하게 만드는 off-manifold redundancy 를 필터링하는 의미 병목 구조를 훈련합니다. 2 단계는 엔드 투 엔드 재구성을 통해 세밀한 음향 세부 사항을 주입하며, 의미 고정화 손실은 표현이 원래 의미 manifold 내부에 뿌리내리게 있음을 보장합니다. 포괄적인 실험은 WavCube 가 SUPERB 에서 WavLM 성능에 근접함을 보여줍니다. 8x 차원 압축에도 불구하고, 재구성 품질은 기존 음향 표현과 동등하며, 시의존적 TTS 성능을 제공하며 훈련 수렴 속도가 현저히 빠릅니다. SUPERB-SG 벤치마크에서 음성 향상, 분리 및 목소리 변환 작업에서 뛰어난 성과를 보입니다. 체계적인 ablations 은 WavCube 의 두 단계 레시피가 생성 모델링을 위한 SSL 특징의 내재적 결함을 해결함을 보여줍니다. 통합된 음성 시스템의 미래를 여는 것입니다. 코드와 체크포인트는 https://github.com/yanghaha0908/WavCube 에서 이용 가능합니다.

Insights

WavCube: Unifying Speech Representation for Understanding and Generation via

요약

핵심 포인트

댓글

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유