본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 30. 13:15

Qwen, Hugging Face에 오픈 소스 음성 인식 모델 출시

요약

Qwen이 52개 언어와 방언을 지원하는 오픈 소스 음성 인식 모델 Qwen3-ASR을 Hugging Face에 출시했습니다. 1.7B 파라미터 규모임에도 폐쇄형 API와 경쟁하는 SOTA 성능을 보여주며, Transformers 환경에서 네이티브로 실행됩니다.

핵심 포인트

  • 52개 언어 및 방언 지원하는 오픈 소스 ASR 모델 출시
  • 1.7B 파라미터로 폐쇄형 API 수준의 성능 달성
  • Transformers 네이티브 실행 및 스트리밍 지원
  • 0.6B 모델 기준 매우 높은 처리량(throughput) 기록

Qwen이 Hugging Face에 오픈 소스 (open-source) 음성 인식 (speech recognition) 모델을 출시했습니다.

Qwen3-ASR은 52개의 언어와 방언을 이해하며,

오픈 소스 ASR 모델들 사이에서 SOTA (State-of-the-Art)를 달성하고,

단 1.7B 파라미터(parameters)만으로 폐쇄형 (proprietary) API와 경쟁합니다.

이 모델은 Transformers에서 네이티브로 실행되며,

스트리밍 (streaming)을 지원하고,

단 0.6B 파라미터에서 2000배의 처리량 (throughput)을 기록합니다.

ASR 모델:
https://huggingface.co/Qwen/Qwen3-ASR-1.7B-hf

Forced aligner:
https://huggingface.co/Qwen/Qwen3-ForcedAligner-0.6B-hf

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0