강건한 코드 스위칭 (Code-Switching) 음성 인식을 위한 LLM 생성 Near-Miss를 활용한 대조 학습
요약
코드 스위칭(Code-switching) 음성 인식 성능을 높이기 위해 LLM을 활용한 대조 학습 프레임워크를 제안합니다. ASR의 오류 구간을 LLM으로 확장하여 정교한 'near-miss' 부정적 예시를 생성하고, 이를 통해 Whisper 모델을 미세 조정합니다.
핵심 포인트
- LLM을 활용해 음향적으로 유사한 near-miss 가설 생성
- CS 임계 영역(POI) 인지 대조 학습 프레임워크 제안
- Whisper-small 모델에 LoRA를 적용하여 미세 조정
- CS-FLEURS 등 벤치마크에서 오류율 2% 이상 개선
단일 발화 내에서 여러 언어가 교차되는 코드 스위칭 (Code-switching, CS)은 자동 음성 인식 (Automatic Speech Recognition, ASR) 분야에서 여전히 어려운 과제로 남아 있습니다. 이 문제를 해결하기 위해, 우리는 CS 임계 영역 (CS-critical regions)에서의 인식을 개선하는 관심 지점 (Point-of-Interest, POI) 인지 대조 학습 (contrastive training) 프레임워크를 제안합니다. 먼저 기존 문헌의 POI 탐지 방법을 채택하여 CS 구간을 식별한 다음, ASR N-best 출력에서 POI를 섭동(perturbing)시키고 대규모 언어 모델 (Large Language Model, LLM)로 후보를 확장함으로써 음향적으로 그럴듯한 near-miss 가설을 구축합니다. 음향적, 음소적, 텍스트적 제약 조건을 통한 필터링을 통해 어렵지만 그럴듯한 부정적 예시 (negatives)를 유지합니다. 마지막으로, POI 가중치 교차 엔트로피 앵커 목적 함수 (POI-weighted cross-entropy anchor objective)와 다중 부정적 대조 순위 손실 (multi-negative contrastive ranking loss)을 사용하여 LoRA를 통해 Whisper-small을 미세 조정 (fine-tune)합니다. CS-FLEURS (cmn-eng) 및 ViMedCSS (vie-eng)에 대한 실험 결과, 표준 LoRA 미세 조정과 비교하여 일반 오류율과 CS 인지 오류율 모두에서 2% 이상의 일관된 감소를 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기