본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 11:04

항공 교통 관제(ATC) 음성 인식을 위한 합성 오디오 생성 프레임워크

요약

항공 교통 관제(ATC) 환경의 노이즈와 악센트 문제를 해결하기 위해 합성 오디오 생성 프레임워크를 제안합니다. TTS, 음성 변환, 악센트 변환 기술을 결합하여 데이터 부족 문제를 해결하고 Whisper 모델의 인식 성능을 개선했습니다.

핵심 포인트

  • ATC 도메인의 노이즈 및 비모국어 악센트 문제 해결을 위한 파이프라인 제안
  • TTS 및 L1-to-L2 악센트 변환 기술을 활용한 합성 데이터 생성
  • Whisper 모델 미세 조정 시 합성 데이터 활용으로 WER(단어 오류율) 유의미한 개선

자동 음성 인식 (ASR) 시스템은 모국어 (L1)를 사용한 일반적인 도메인에서는 놀라운 정확도를 달성했음에도 불구하고, 강한 채널 노이즈, 비모국어 (L2) 영어 악센트의 존재, 그리고 데이터 부족으로 인해 항공 교통 관제 (ATC)와 같은 도메인에서는 어려움을 겪고 있습니다. 우리는 ATC 도메인에서의 인식 정확도를 향상시키기 위해, 실제 데이터의 부족 문제를 해결하도록 특별히 설계된 음향 특성 시뮬레이션을 포함한 합성 데이터 생성 파이프라인을 제안합니다. 우리의 접근 방식은 텍스트 음성 변환 (Text-to-Speech), 음성 변환 (Voice Conversion), L2-to-L1 악센트 변환, 그리고 악센트가 있는 음성을 시뮬레이션하기 위해 구축된 새로운 제어 가능한 L1-to-L2 악센트 변환 프레임워크를 포함한 신경망 생성 기술의 조합을 활용합니다. ATCO2 코퍼스를 사용하여 Whisper 모델로 진행한 실험 결과, 합성 데이터만으로 미세 조정 (fine-tuning)하거나 실제 데이터와 합성 데이터를 혼합하여 미세 조정했을 때, 각각 별도의 설정(out-of-the-box) 및 실제 데이터만 사용한 베이스라인 모델에 비해 단어 오류율 (Word Error Rate, WER)이 유의미하게 개선됨을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0