SE-AGCNet: 회의 시나리오에서의 음성 향상 (Speech Enhancement) 및 라우드니스 제어 (Loudness Control)
요약
음성 향상(SE)과 자동 이득 제어(AGC)를 별개로 처리하던 기존 방식의 한계를 극복하기 위해, 두 과정을 통합 최적화하는 엔드 투 엔드 프레임워크 SE-AGCNet을 제안합니다. 회의 시나리오에서 음성 품질과 라우드니스 제어를 동시에 개선하여 ASR 정확도를 높였습니다.
핵심 포인트
- SE와 AGC를 통합하여 소음 증폭 및 음성 억제 문제 해결
- 회의 환경에 특화된 SE-AGCNet 엔드 투 엔드 프레임워크 제안
- 데이터 시뮬레이션 파이프라인 SE-AGC-DataGen 개발
- 음성 품질 향상 및 자동 음성 인식(ASR) 정확도 개선 확인
전통적인 오디오 파이프라인은 일반적으로 음성 향상 (Speech Enhancement, SE)과 자동 이득 제어 (Automatic Gain Control, AGC)를 별개의 모듈로 취급하며, 이는 종종 전체적인 성능을 제한합니다. 예를 들어, SE 이전에 AGC를 적용하면 의도치 않게 배경 소음이 증폭될 수 있는 반면, SE를 우선시하면 낮은 볼륨의 음성이 과도하게 억제되는 경향이 있습니다. 이러한 한계를 해결하기 위해, 우리는 SE와 AGC를 공동으로 최적화하는 엔드 투 엔드 (End-to-End) 프레임워크인 SE-AGCNet을 제안합니다. 상당한 볼륨 변화가 발생하는 회의 시나리오에 맞춤화된 SE-AGCNet은 두 작업 간의 시너지 효과를 활용합니다. 즉, SE가 작은 음성을 보존함으로써 AGC 구성 요소에 의한 효과적인 볼륨 조정을 용이하게 합니다. 또한, 우리는 특화된 데이터 시뮬레이션 파이프라인인 SE-AGC-DataGen을 제안하고, 통합 라우드니스 (Integrated Loudness, LUFS), 단기 라우드니스 (Short-term Loudness, St LUFS), 그리고 라우드니스 범위 (Loudness Range, LRA)와 같은 표준화된 라우드니스 평가 지표를 통합합니다. 실험 결과, SE-AGCNet은 경쟁력 있는 베이스라인 모델들에 비해 음성 품질과 자동 음성 인식 (ASR) 정확도를 개선하는 동시에 목표 라우드니스를 일관되게 달성함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기