고성능 다국어 ASR에 강력한 코드 스위칭 (Code-switching) 능력 추가하기
요약
다국어 ASR 시스템에서 코드 스위칭(Code-switching) 성능을 높이면서 기존 단일 언어 성능을 유지하는 연구를 소개합니다. 베이지안 인수 분해 적응 방식을 통해 소량의 합성 데이터만으로도 효율적인 지식 통합이 가능함을 입증했습니다.
핵심 포인트
- 베이지안 인수 분해 적응을 통한 효율적인 코드 스위칭 지식 통합
- 단일 언어 성능 저하 없이 복잡한 언어 간 변이 처리 가능
- 코드 스위칭 단어 전사 오류 32.87% 감소 및 전체 WER 5.31% 개선
- 데이터의 양보다 지식 통합 방식이 성능 향상에 더 중요함
코드 스위칭 (Code-switching, CSW)은 실제 배포 환경에서 대규모 다국어 ASR (Automatic Speech Recognition) 시스템에 여전히 어려운 과제로 남아 있습니다. 합성된 CSW 데이터로 미세 조정 (Fine-tuning)하는 것이 가능하지만, 이는 일반적으로 강력한 단일 언어 (Monolingual) 베이스라인 성능을 저하시킵니다. 우리의 목표는 언어 간의 형태론적 변이 (Morphological variations)를 포함하여 복잡한 코드 스위칭을 처리할 수 있도록 모델을 확장하면서도, 이러한 기존 능력을 보존하는 것입니다. 우리는 베이지안 인수 분해 적응 (Bayesian factorized adaptation)을 제안하며, 이는 기존의 능력을 덮어쓰지 않고 강력한 사전 학습된 (Pretrained) 모델에 스위칭 관련 지식을 효율적으로 통합하는 방법을 학습합니다. 소량의 합성 데이터만을 필요로 하는 우리의 접근 방식은 단일 언어 성능을 유지하면서도, 코드 스위칭된 단어에서의 전사 오류를 32.87% 줄이고 전체 WER (Word Error Rate)을 5.31% 개선합니다. 우리의 결과는 효과적인 CSW 적응이 데이터의 복잡성보다 지식 통합에 더 크게 의존한다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기