Open ASR Leaderboard: 새로운 다국어 및 장문 트랙을 통한 동향과 통찰력

요약

최근 업데이트된 Open ASR Leaderboard는 기존의 짧은 영어 중심 평가를 넘어, 다국어 성능과 모델 처리량(throughput)을 핵심 지표로 포함하고 있습니다. 현재까지 최고의 정확도는 Conformer 인코더와 LLM 디코더 조합에서 나타나며, NVIDIA Canary-Qwen-2.5B 등이 낮은 WER을 기록했습니다. 반면, 실시간 처리가 중요한 장문 오디오에서는 CTC/TDT 디코더를 사용하는 모델들이 압도적인 처리 속도를 보여줍니다. Whisper Large v3는 강력한 다국어 기준점이지만, 특정 언어에 특화

핵심 포인트

최고 정확도는 Conformer 인코더와 LLM 디코더 조합(예: NVIDIA Canary-Qwen-2.5B)에서 나타나며, 이는 ASR 성능 향상에 LLM 추론 능력이 크게 기여함을 보여줍니다.
실시간/배치 처리에 최적화된 CTC 및 TDT 디코더는 Whisper Large v3 대비 월등히 높은 처리량(RTFx 2793.75 vs 68.56)을 제공합니다.
Whisper Large v3와 같은 범용 모델은 다국어 지원에 강하지만, 특정 언어에 특화된 파인튜닝 모델이 영어 단독 작업에서는 더 높은 성능을 보일 수 있습니다.
장문 오디오 전사(팟캐스트, 회의) 분야는 여전히 폐쇄형 시스템이 우위를 점하고 있으나, 오픈 소스 커뮤니티가 혁신할 잠재력이 매우 높습니다.

Open ASR Leaderboard: 새로운 다국어 및 장문 트랙을 통한 동향과 통찰력

대부분의 벤치마크는 짧은 형식의 영어 전사(transcription) (<30초)에 초점을 맞추고 있어, (1) 다국어 성능이나 (2) 모델 처리량(throughput)과 같은 다른 중요한 작업들을 간과하는 경향이 있습니다. 이 두 가지 요소는 회의나 팟캐스트와 같은 장문 오디오에서 결정적인 요소가 될 수 있습니다.

지난 2년 동안 Open ASR Leaderboard는 정확도와 효율성 측면 모두에서 오픈소스 및 클로즈드소스 모델을 비교하는 표준이 되었습니다. 최근에는 다국어 및 장문 전사 트랙이 리더보드에 추가되었습니다 🎉

요약 (TL;DR) - Open ASR Leaderboard

📝 리더보드의 ASR 동향에 대한 새로운 사전 인쇄본(preprint): https://hf.co/papers/2510.06961
🧠 최고 정확도: Conformer encoder + LLM decoders (오픈소스가 최고! 🥳)
⚡ 가장 빠름: CTC / TDT decoders
🌍 다국어: 단일 언어 성능을 희생함
⌛ 장문: 현재로서는 클로즈드소스 시스템이 여전히 선두를 차지함 (😉)
🧑💻 파인튜닝 가이드 (Parakeet, Voxtral, Whisper): 계속해서 성능 향상을 추구할 수 있도록 지원

2025년 11월 21일 기준으로 Open ASR Leaderboard는 18개 조직의 60개 이상의 오픈 및 클로즈드소스 모델을 11개의 데이터셋에 걸쳐 비교합니다.

최근 사전 인쇄본에서 우리는 기술적 설정(technical setup)을 깊이 파고들고 현대 ASR의 몇 가지 주요 동향을 강조했습니다. 주요 시사점은 다음과 같습니다 👇

현재 영어 전사 정확도에서는 Conformer encoder와 대규모 언어 모델(LLM) 디코더를 결합한 모델들이 선두를 달리고 있습니다. 예를 들어, NVIDIA의 Canary-Qwen-2.5B, IBM의 Granite-Speech-3.3-8B, Microsoft의 Phi-4-Multimodal-Instruct가 가장 낮은 단어 오류율(Word Error Rate, WER)을 기록하며, LLM 추론을 통합하는 것이 ASR 정확도를 크게 향상시킬 수 있음을 보여줍니다.

💡 전문가 팁: NVIDIA는 Conformer의 2배 빠른 변형인 Fast Conformer를 도입했으며, 이는 Canary 및 Parakeet 모델 제품군에 사용됩니다.

이러한 LLM 디코더들은 정확도가 매우 높음에도 불구하고, 단순한 접근 방식보다 느린 경향이 있습니다. Open ASR Leaderboard에서는 효율성을 역실시간 계수(inverse real-time factor, RTFx)를 사용하여 측정하며, 이 값이 높을수록 좋습니다.

훨씬 더 빠른 추론 속도를 위해 CTC와 TDT 디코더는 오류율이 약간 더 높다는 단점이 있지만, 10~100배 더 빠른 처리량을 제공합니다. 이로 인해 회의, 강의 또는 팟캐스트와 같은 실시간, 오프라인 또는 배치 전사 작업에 이상적입니다.

OpenAI의 Whisper Large v3는 99개 언어를 지원하는 강력한 다국어 기준선(baseline)으로 남아 있습니다. 하지만 Distil-Whisper나 CrisperWhisper와 같이 파인튜닝되거나 증류된(distilled) 변형 모델들은 영어 전용 작업에서 종종 원본보다 더 나은 성능을 보여주며, 표적화된 파인튜닝이 전문성을 어떻게 향상시킬 수 있는지 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Open ASR Leaderboard: 새로운 다국어 및 장문 트랙을 통한 동향과 통찰력

요약

핵심 포인트

Open ASR Leaderboard: 새로운 다국어 및 장문 트랙을 통한 동향과 통찰력

댓글