대규모 언어 모델(LLM)이 저자원 ASR의 오류를 신뢰성 있게 수정할 수 있는가? West Frisian에 대한 데이터 오염 인지 사례 연구
요약
본 연구는 저자원 언어인 West Frisian을 대상으로 LLM을 활용한 자동 음성 인식(ASR) 오류 수정(GER)의 효과와 데이터 오염 영향을 조사했습니다. 비공개 텍스트를 포함한 오프라인 데이터셋을 통해 검증한 결과, LLM 기반의 오류 수정이 실제 성능 향상으로 이어짐을 확인했습니다.
핵심 포인트
- 저자원 언어 환경에서 LLM을 통한 생성적 오류 수정(GER)이 ASR 성능을 유의미하게 향상시킴
- 비공개 데이터셋을 활용한 실험을 통해 LLM의 성능 향상이 데이터 오염이 아닌 실제 수정 능력임을 입증
- GPT-5.1 모델이 가장 우수한 성능을 보였으며, 일부 설정에서는 오라클 단어 오류율(oracle WERs)을 상회함
- LLM의 오류 수정 패턴에 대한 상세한 분석 제공
자동 음성 인식 (ASR) 기술은 최근 몇 년 동안 실질적으로 향상되었으나, 저자원 언어 (low-resource languages)에 대한 성능은 여전히 제한적입니다. 대규모 언어 모델 (LLMs)은 생성적 오류 수정 (Generative Error Correction, GER)을 통해 ASR을 개선할 수 있는 가능성을 보여주었지만, 저자원 환경에서의 효과는 아직 충분히 탐구되지 않았습니다. 또한, 데이터 오염 (data contamination)이 LLM 기반 GER에서 보고된 성능 향상에 어느 정도 영향을 미치는지도 불분명합니다. 본 연구는 저자원 언어인 Frisian을 대상으로 한 LLM 기반 GER을 조사합니다. 잠재적인 데이터 오염을 제어하기 위해, 공개 코퍼스 (public corpus) 외에도 비공개 텍스트를 포함한 Frisian 오프라인 데이터셋을 구축하여 평가에 사용했습니다. 연구 결과, GER은 대부분의 설정에서 ASR 성능을 향상시켰으며, 가장 우수한 GPT-5.1의 결과는 오라클 단어 오류율 (oracle WERs)을 능가했습니다. 오프라인 데이터셋에서도 유사한 이득이 나타난 것은 이러한 성능 향상이 실제 수정 능력 (true correction ability)을 반영함을 나타냅니다. 나아가, 우리는 모델의 수정 패턴을 밝히는 상세한 오류 분석 (error analysis)을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기