대규모 언어 모델(LLM)이 저자원 ASR의 오류를 신뢰성 있게 수정할 수 있는가? West Frisian에 대한 데이터 오염 인지 사례 연구

자동 음성 인식 (ASR) 기술은 최근 몇 년 동안 실질적으로 향상되었으나, 저자원 언어 (low-resource languages)에 대한 성능은 여전히 제한적입니다. 대규모 언어 모델 (LLMs)은 생성적 오류 수정 (Generative Error Correction, GER)을 통해 ASR을 개선할 수 있는 가능성을 보여주었지만, 저자원 환경에서의 효과는 아직 충분히 탐구되지 않았습니다. 또한, 데이터 오염 (data contamination)이 LLM 기반 GER에서 보고된 성능 향상에 어느 정도 영향을 미치는지도 불분명합니다. 본 연구는 저자원 언어인 Frisian을 대상으로 한 LLM 기반 GER을 조사합니다. 잠재적인 데이터 오염을 제어하기 위해, 공개 코퍼스 (public corpus) 외에도 비공개 텍스트를 포함한 Frisian 오프라인 데이터셋을 구축하여 평가에 사용했습니다. 연구 결과, GER은 대부분의 설정에서 ASR 성능을 향상시켰으며, 가장 우수한 GPT-5.1의 결과는 오라클 단어 오류율 (oracle WERs)을 능가했습니다. 오프라인 데이터셋에서도 유사한 이득이 나타난 것은 이러한 성능 향상이 실제 수정 능력 (true correction ability)을 반영함을 나타냅니다. 나아가, 우리는 모델의 수정 패턴을 밝히는 상세한 오류 분석 (error analysis)을 제공합니다.

Insights

대규모 언어 모델(LLM)이 저자원 ASR의 오류를 신뢰성 있게 수정할 수 있는가? West Frisian에 대한 데이터 오염 인지 사례 연구

요약

핵심 포인트

댓글

Show GN: ts6to7 - TypeScript 5/6 → 7(tsgo) 마이그레이션 자동화 codemod

통신사가 1000조짜리 데이터센터를 짓겠다는데, 하필 왜 SK텔레콤일까.

AI가 코드를 대신 짜주는 시대에, 빅테크가 사람을 수천 명씩 고객 현장으로 보내고 있다.

Show GN: ts6to7 - TypeScript 5/6 → 7(tsgo) 마이그레이션 자동화 codemod

통신사가 1000조짜리 데이터센터를 짓겠다는데, 하필 왜 SK텔레콤일까.

AI가 코드를 대신 짜주는 시대에, 빅테크가 사람을 수천 명씩 고객 현장으로 보내고 있다.