arXiv논문2026. 06. 09. 11:52

MeCo: 다채널 음성 분리를 위한 MeanFlow 기반의 단일 단계 교정기

요약

다채널 음성 분리 시 판별 모델의 낮은 청취 품질 문제를 해결하기 위해 MeanFlow 기반의 단일 단계 생성 교정기인 MeCo를 제안합니다. DSO 기법을 통해 신호 충실도와 인간의 청취 품질을 동시에 최적화하여 SOTA 성능을 달성했습니다.

핵심 포인트

MeanFlow 기반의 단일 단계 생성 교정기 MeCo 제안
데이터 공간 최적화(DSO)를 통한 예측 오차 및 신호 충실도 개선
최소한의 계산 오버헤드로 SOTA 성능 달성
도메인 내외 시나리오 모두에서 우수한 청취 품질 입증

다채널 음성 분리 (multi-channel speech separation)를 위한 판별 모델 (discriminative models)은 참조 기반 지표 (reference-based metrics)에서는 뛰어나지만, 종종 인간의 청취 품질 (human listening quality) 측면에서는 최적에 미치지 못하는 모습을 보입니다. 이를 해결하기 위해, 우리는 새로운 MeanFlow 기반의 단일 단계 생성 교정기 (one-step generative corrector, MeCo)를 제안합니다. MeCo는 조건부 평균 속도장 (conditional average velocity field)을 학습하여 판별적 추정치 (discriminative estimates)를 단 한 번의 단계로 깨끗한 음성 매니폴드 (clean speech manifold)로 직접 매핑합니다. 단일 단계 생성 성능을 극대화하기 위해, 우리는 데이터 공간 최적화 (Data-Space Optimization, DSO)를 도입합니다. DSO는 긴 변위 구간 (longer displacement intervals)에서의 예측 오차에 패널티를 부여하여 인간의 청취 품질을 위한 생성 목적 함수 (generative objective) 역할을 하는 $\mathbf{x}_r$-loss와, 최종 신호 충실도 (terminal signal fidelity)를 직접 최적화하는 Endpoint SI-SDR loss를 통합합니다. 실험을 통해 MeCo는 최소한의 계산 오버헤드 (computational overhead)로 최첨단 (state-of-the-art, SOTA) 성능을 달성하며, 도메인 내 (in-domain) 및 도메인 외 (out-of-domain) 시나리오 모두에서 우수한 신호 충실도와 인간의 청취 품질을 동시에 달성함을 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MeCo: 다채널 음성 분리를 위한 MeanFlow 기반의 단일 단계 교정기

요약

핵심 포인트

댓글