필터링 및 선택을 통한 대규모 약지도 학습 ASR 성능 향상
요약
약지도 학습 데이터셋의 노이즈와 도메인 특수성 문제를 해결하기 위한 새로운 ASR 모델 훈련 방식을 제안합니다. 데이터 필터링과 선택 과정을 결합한 3단계 접근법을 통해 음성 인식 성능을 크게 향상시켰습니다.
핵심 포인트
- 사전 훈련, CER 기반 필터링, 타겟 도메인 미세 조정의 3단계 프로세스 제안
- 9만 시간의 일본어 데이터셋 실험을 통해 성능 검증
- 필터링 및 선택 과정을 통해 CER을 최대 6.4% 감소시키는 시너지 효과 확인
대규모 약지도 학습 (weakly supervised) 데이터셋을 활용하는 것은 강력한 엔드투엔드 (end-to-end) 자동 음성 인식 (ASR) 모델을 훈련하는 데 매우 중요합니다. 그러나 이러한 데이터셋은 종종 노이즈가 있는 레이블 (noisy labels)을 포함하고 도메인 특수성이 부족하여 그 효과가 제한됩니다. 이러한 문제를 해결하고 약지도 학습 데이터셋을 더 잘 활용하기 위해, 우리는 데이터 필터링 (filtering) 및 선택 (selection)을 결합한 새로운 훈련 접근 방식을 제안합니다. 우리의 접근 방식은 세 단계로 구성됩니다: 전체 데이터셋에 대한 사전 훈련 (pretraining), 문자 오류율 (CER)을 기반으로 필터링된 하위 집합에 대한 지속적 사전 훈련 (continued pretraining), 그리고 필터링된 하위 집합에서 선택된 타겟 도메인과 음향적으로 유사한 소수의 샘플에 대한 미세 조정 (fine-tuning)입니다. 90,000시간의 약지도 학습 일본어 데이터셋을 사용한 실험에서, 제안된 필터링 및 선택 방법은 이 단계들이 첫 번째 사전 훈련 단계에서 이미 사용된 훈련 샘플을 재사용했음에도 불구하고, 각각 CER을 최대 6.4%와 4.0%까지 시너지 효과를 내며 감소시켰습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기