LLM 기반 ASR 시스템을 위해 합성 음성(Synthetic Speech)을 활용하는 방법은 무엇인가?
요약
LLM 기반 ASR 시스템 학습 시 합성 음성과 실제 음성 간의 분포 차이를 줄이기 위한 연구를 다룹니다. LLM의 특정 레이어가 합성 음성을 판별하는 지점을 찾아내고, RIR 증강과 레이어 선택 모듈을 통해 실제 데이터 사용량을 25%로 줄이면서도 대등한 성능을 달성했습니다.
핵심 포인트
- LLM의 초기-중기 레이어가 합성 음성과 실제 음성을 구분하는 핵심 지점임을 발견
- RIR(실내 임펄스 응답) 증강이 합성 음성의 음향적 불규칙성을 재현하여 격차를 좁힘
- 레이어 선택 모듈과 RIR 증강 결합 시 실제 데이터 25%만으로 베이스라인 성능 달성
- 표현 수준의 분리 가능성이 반드시 ASR 성능 향상으로 직결되지는 않음을 입증
은행 및 의료와 같이 개인정보 보호 제약으로 인해 실제 음성을 수집하고 보유하는 비용이 많이 드는 규제 대상 도메인에서는, 현대적인 텍스트 음성 변환 (TTS) 기술로 생성된 합성 음성 (Synthetic Speech)이 민감한 고객 녹음 데이터를 노출하지 않고 자동 음성 인식 (ASR)을 학습시킬 수 있는 매력적인 대안입니다. 그러나 합성 데이터와 실제 데이터 사이의 지속적인 분포 차이 (Distributional Gap)는 합성 데이터가 실제 녹음 데이터를 얼마나 대체할 수 있는지를 제한합니다. 기존 연구들은 주로 이 차이를 우회해야 할 블랙박스 (Black Box)로 취급해 왔으나, 본 연구에서는 SLAM-ASR 아키텍처를 조사함으로써 그 기원을 직접 탐구합니다. 그런 다음, LLM 백본 (Backbone)이 실제 음성과 합성 음성을 구분하는 지점을 국소화(Localise)하였으며, 이러한 판별 신호 (Discriminative Signal)가 시간적 및 운율적 섭동 (Temporal and Prosodic Perturbations)에 의해 가장 크게 방해를 받는 초기-중기 레이어 (Early-to-middle layers)에 집중되어 있음을 발견했습니다. 나아가 우리는 표현 수준의 분리 가능성 (Representation-level Separability)이 도움이 되기는 하지만, 다운스트림 ASR 성능 향상을 직접적으로 예측하지는 않는다는 점을 보여줍니다. 반면, 합성 오디오를 실내 임펄스 응답 (RIRs)과 컨볼루션 (Convolving)하는 것은 합성 음성을 더 깨끗하거나 자연스럽게 만들기 때문이 아니라, 실제 녹음의 음향적 불규칙성 (Acoustic Irregularities)을 재현함으로써 그 격차를 좁힙니다. 이러한 발견을 학습 절차에 적용하여, RIR 증강 (Augmentation)과 결합된 레이어 선택 모듈 (Layer-selection Module)을 추가함으로써, 실제 음성의 25% (13.6시간)만을 사용하여 전체 실제 데이터 베이스라인 (Baseline)과 대등한 성능을 달성하였으며, 그 이상의 비율에서는 모두 이를 능가했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기