arXiv논문2026. 06. 24. 11:20

U-Net을 넘어: Flow-Matching 음성 향상을 위한 잠재 표현 정렬 기반의 Skip-Free 백본

요약

Flow-Matching 기술을 활용하여 음성 향상(Speech Enhancement)의 효율성을 높이는 새로운 Skip-free 백본 구조를 제안합니다. U-Net의 스킵 연결 대신 잠재 표현 정렬(LRA)을 사용하여 적은 추론 단계만으로도 고품질의 음성 복원이 가능함을 입증했습니다.

핵심 포인트

Flow-Matching을 통한 효율적인 음성 향상 구현
U-Net 스킵 연결을 대체하는 잠재 표현 정렬(LRA) 방식 제안
Descript Audio Codec 기반의 코덱 정렬 지도 학습 적용
단 5회의 함수 평가만으로 높은 PESQ 및 지각 품질 달성

생성 모델(Generative models), 특히 확산(diffusion) 및 점수 기반(score-based) 방식은 최근 음성 향상(speech enhancement) 분야에서 강력한 성능을 달성했으나, 반복적인 샘플링(sampling) 과정으로 인해 실시간 배포에 한계가 있습니다. Flow Matching은 적은 수의 함수 평가(function evaluations)를 통해 상미분 방정식(ordinary differential equation)을 사용하여 노이즈가 섞인 음성을 깨끗한 음성으로 이동시킴으로써 효율적인 대안을 제공합니다. 본 연구에서는 잠재 표현 정렬(Latent Representation Alignment, LRA)에 의해 유도되는, Flow-Matching 음성 향상을 위한 Skip-free 인코더-디코더 백본(backbone)을 제안합니다. 노이즈와 상관관계가 있는 저수준 특징(low-level features)을 디코더로 전달할 수 있는 U-Net 스킵 연결(skip connections)에 의존하는 대신, 제안된 모델은 병목(bottleneck) 및 디코더 표현을 양자화되지 않은 고정된 Descript Audio Codec 인코더-디코더에서 추출된 깨끗한 잠재 특징(latent features)과 정렬합니다. 이러한 코덱 정렬 지도 학습(codec-aligned supervision)은 효율적인 몇 단계 추론(few-step inference)을 유지하면서도 압축된 깨끗한 음성 표현을 촉진합니다. WSJ0-CHiME3 및 VoiceBank-DEMAND 데이터셋에 대한 실험 결과, 단 5회의 함수 평가만으로도 PESQ 및 지각 품질(perceptual quality)이 향상되었으며, 특히 VoiceBank-DEMAND에서 뛰어난 성능을 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

U-Net을 넘어: Flow-Matching 음성 향상을 위한 잠재 표현 정렬 기반의 Skip-Free 백본

요약

핵심 포인트

댓글