언어 식별 (Language Identification)을 결합한 이중 언어 미세 조정 (Bilingual Fine-tuning)을 통한
요약
이 연구는 저자원 언어의 자동 음성 인식(ASR) 성능을 높이기 위해 언어 식별(Language Identification)을 결합한 이중 언어 미세 조정을 제안합니다. 9개의 다양한 언어 쌍을 통해 실험한 결과, 언어 식별 정확도에 따라 추론 시 토큰 제공 여부가 ASR 성능에 미치는 영향을 분석했습니다.
핵심 포인트
- 언어 식별 토큰을 활용한 이중 언어 미세 조정 방법론 제안
- 9개의 다양한 언어 쌍을 통한 실험 및 검증 수행
- 언어 식별 정확도가 낮을 경우 추론 시 토큰 제공이 성능 향상에 도움
- 언어 식별과 전사(Transcription)의 공동 예측 메커니즘 탐구
본 연구는 이중 언어 미세 조정 (Bilingual Fine-tuning)이 저자원 언어의 자동 음성 인식 (ASR)에 어떠한 영향을 미치는지 탐구합니다. 우리는 다양한 어족과 문자 체계를 아우르는, 언어학적 및 지리적으로 다양한 9개의 언어 쌍에 대해 이 방법을 평가합니다. 두 언어를 구분하기 위해, 학습 과정에서 각 입력 텍스트의 앞에 언어 식별 (Language Identification) 토큰을 추가합니다. 추론 (Inference) 시에는 모델이 음성 입력만으로 언어와 전사 (Transcription)를 공동으로 예측합니다. 언어가 잘못 결정된 텍스트는 낮은 ASR 성능을 보이기 때문에, 우리는 학습과 추론 단계 모두에서 언어 식별 토큰을 제공하는 후속 실험도 수행합니다. 연구 결과에 따르면, 언어 식별 정확도가 높을 때는 이중 언어 미세 조정이 유익할 수 있으며, 언어 식별 성능이 낮은 경우에는 추론 시 언어 식별 토큰을 포함하는 것이 ASR 성능을 향상시키는 데 도움이 됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기