MeCo: 다채널 음성 분리를 위한 MeanFlow 기반의 단일 단계 교정기
요약
다채널 음성 분리 시 판별 모델의 낮은 청취 품질 문제를 해결하기 위해 MeanFlow 기반의 단일 단계 생성 교정기인 MeCo를 제안합니다. DSO 기법을 통해 신호 충실도와 인간의 청취 품질을 동시에 최적화하여 SOTA 성능을 달성했습니다.
핵심 포인트
- MeanFlow 기반의 단일 단계 생성 교정기 MeCo 제안
- 데이터 공간 최적화(DSO)를 통한 예측 오차 및 신호 충실도 개선
- 최소한의 계산 오버헤드로 SOTA 성능 달성
- 도메인 내외 시나리오 모두에서 우수한 청취 품질 입증
다채널 음성 분리 (multi-channel speech separation)를 위한 판별 모델 (discriminative models)은 참조 기반 지표 (reference-based metrics)에서는 뛰어나지만, 종종 인간의 청취 품질 (human listening quality) 측면에서는 최적에 미치지 못하는 모습을 보입니다. 이를 해결하기 위해, 우리는 새로운 MeanFlow 기반의 단일 단계 생성 교정기 (one-step generative corrector, MeCo)를 제안합니다. MeCo는 조건부 평균 속도장 (conditional average velocity field)을 학습하여 판별적 추정치 (discriminative estimates)를 단 한 번의 단계로 깨끗한 음성 매니폴드 (clean speech manifold)로 직접 매핑합니다. 단일 단계 생성 성능을 극대화하기 위해, 우리는 데이터 공간 최적화 (Data-Space Optimization, DSO)를 도입합니다. DSO는 긴 변위 구간 (longer displacement intervals)에서의 예측 오차에 패널티를 부여하여 인간의 청취 품질을 위한 생성 목적 함수 (generative objective) 역할을 하는 $\mathbf{x}_r$-loss와, 최종 신호 충실도 (terminal signal fidelity)를 직접 최적화하는 Endpoint SI-SDR loss를 통합합니다. 실험을 통해 MeCo는 최소한의 계산 오버헤드 (computational overhead)로 최첨단 (state-of-the-art, SOTA) 성능을 달성하며, 도메인 내 (in-domain) 및 도메인 외 (out-of-domain) 시나리오 모두에서 우수한 신호 충실도와 인간의 청취 품질을 동시에 달성함을 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기