발생하지 않은 대화를 활용한 효율적인 ASR 학습
요약
저자원 언어 및 니치 도메인을 위한 대화형 ASR 학습을 위해 LLM과 TTS를 결합한 데이터 증강 파이프라인을 제안합니다. 합성된 시뮬레이션 대화가 실제 대화 데이터의 부족 문제를 효과적으로 보완하며 음성 인식 성능을 향상시킴을 입증했습니다.
핵심 포인트
- LLM과 TTS를 활용한 화자 인식형 시뮬레이션 대화 생성
- 합성 데이터가 저자원 언어 ASR 성능 향상에 기여
- 소량의 합성 데이터로 대규모 제로샷 모델 능가 가능
- 생성기 선택과 데이터 구성이 성능에 결정적 영향
저자원 언어(low-resource languages) 및 니치 도메인(niche domains)을 위한 대화형 ASR(Automatic Speech Recognition)은 도메인에 부합하는 다중 화자 학습 데이터의 부족으로 인해 제한을 받습니다. 본 연구에서는 참여자 메타데이터를 포함한 시나리오 수준의 대화를 생성하고, 화자 속성을 TTS(Text-to-Speech) 음성 프로필에 매핑하며, 합성된 발화들을 화자 인식형(speaker-aware) 시뮬레이션 대화로 조립하는 증강 파이프라인을 제안합니다. 우리는 각 모델에 대해 동일한 FastConformer-Large 학습 레시피를 사용하여 단일 생성기(single-generator), 고정 예산 혼합(fixed-budget mixture), 그리고 스케일업(scale-up) 설정 하에서 다섯 가지 LLM(Large Language Model) 제품군을 평가했습니다. 우리는 헝가리어 BEA-Dialogue 벤치마크 코퍼스(benchmark corpus)를 대상으로 포괄적인 평가를 수행하였으며, 이 방법은 각 구성 요소에 필요한 자원이 있다면 어떤 언어에도 적용 가능합니다. 결과에 따르면 합성된 대화는 음성 인식 성능을 일관되게 향상시키지만, 생성기 선택과 데이터 구성이 이득에 강력한 영향을 미칩니다. 실제 대화 67시간과 시뮬레이션 데이터 636시간만을 사용한 우리의 가장 큰 학습 구성은 2,700시간의 헝가리어 음성으로 학습된 제로샷(zero-shot) 모델보다 평가 벤치마크에서 더 나은 성능을 달성했습니다. 이러한 발견은 TTS로 합성된 LLM 생성 대화 데이터가 음성 모델 학습을 위한 실제 대화 코퍼스의 실질적인 보완재가 될 수 있음을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기