arXiv논문2026. 06. 08. 10:33

강건한 코드 스위칭 (Code-Switching) 음성 인식을 위한 LLM 생성 Near-Miss를 활용한 대조 학습

요약

코드 스위칭(Code-switching) 음성 인식 성능을 높이기 위해 LLM을 활용한 대조 학습 프레임워크를 제안합니다. ASR의 오류 구간을 LLM으로 확장하여 정교한 'near-miss' 부정적 예시를 생성하고, 이를 통해 Whisper 모델을 미세 조정합니다.

핵심 포인트

LLM을 활용해 음향적으로 유사한 near-miss 가설 생성
CS 임계 영역(POI) 인지 대조 학습 프레임워크 제안
Whisper-small 모델에 LoRA를 적용하여 미세 조정
CS-FLEURS 등 벤치마크에서 오류율 2% 이상 개선

단일 발화 내에서 여러 언어가 교차되는 코드 스위칭 (Code-switching, CS)은 자동 음성 인식 (Automatic Speech Recognition, ASR) 분야에서 여전히 어려운 과제로 남아 있습니다. 이 문제를 해결하기 위해, 우리는 CS 임계 영역 (CS-critical regions)에서의 인식을 개선하는 관심 지점 (Point-of-Interest, POI) 인지 대조 학습 (contrastive training) 프레임워크를 제안합니다. 먼저 기존 문헌의 POI 탐지 방법을 채택하여 CS 구간을 식별한 다음, ASR N-best 출력에서 POI를 섭동(perturbing)시키고 대규모 언어 모델 (Large Language Model, LLM)로 후보를 확장함으로써 음향적으로 그럴듯한 near-miss 가설을 구축합니다. 음향적, 음소적, 텍스트적 제약 조건을 통한 필터링을 통해 어렵지만 그럴듯한 부정적 예시 (negatives)를 유지합니다. 마지막으로, POI 가중치 교차 엔트로피 앵커 목적 함수 (POI-weighted cross-entropy anchor objective)와 다중 부정적 대조 순위 손실 (multi-negative contrastive ranking loss)을 사용하여 LoRA를 통해 Whisper-small을 미세 조정 (fine-tune)합니다. CS-FLEURS (cmn-eng) 및 ViMedCSS (vie-eng)에 대한 실험 결과, 표준 LoRA 미세 조정과 비교하여 일반 오류율과 CS 인지 오류율 모두에서 2% 이상의 일관된 감소를 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

강건한 코드 스위칭 (Code-Switching) 음성 인식을 위한 LLM 생성 Near-Miss를 활용한 대조 학습

요약

핵심 포인트

댓글