Docker 기반 Nemotron 3.5 ASR — Parakeet에서 전환, 더 나은 다국어 지원 + 스트리밍 (CPU에서 실시간 속도
요약
Parakeet에서 Nemotron 3.5 ASR로 전환하여 다국어 지원과 스트리밍 성능을 개선한 사례를 소개합니다. Docker를 통해 컨테이너화되었으며, CPU 환경에서도 onnxruntime-genai를 활용해 실시간보다 4.5배 빠른 속도를 구현했습니다.
핵심 포인트
- 40개 이상의 로케일을 지원하는 강력한 다국어 성능
- 전체 파일 버퍼링이 필요 없는 네이티브 스트리밍 아키텍처
- onnxruntime-genai 기반 CPU 환경에서의 높은 처리 속도
- Docker를 활용한 간편한 배포 및 API 호출 예시 제공
저는 원래 음성 인식 (Speech Recognition) 파이프라인에 Parakeet를 사용하고 있었지만, Nemotron 3.5를 시도해 보기로 결정했습니다. 몇 가지 다국어 오디오 클립으로 테스트해 본 결과, 지금까지 아주 잘 작동하고 있습니다.
제가 마음을 굳힌 이유:
- 더 나은 언어 지원 (하나의 모델로 40개 이상의 로케일 지원)
- 네이티브 스트리밍 (Native streaming) 아키텍처 — 더 이상 전체 파일을 버퍼링할 필요가 없음
- CPU에서 테스트했을 때 onnxruntime-genai를 백엔드로 사용하여 실시간 속도(realtime speed)의 약 4.5배를 기록함
Docker로 컨테이너화했기 때문에 바로 클론(clone)해서 실행할 수 있습니다. 클라이언트에서 API를 호출하는 방법(스트리밍 및 파일 업로드 모두 포함)을 보여주는 예시 파일들이 있습니다. 저장소(repo)는 댓글에 있습니다.
한 가지 — 아직 CUDA 지원은 테스트하지 않았습니다. 기본적으로 작동해야 하겠지만, GPU에서 실행하려면 yaml 파일과 requirements.txt를 약간 수정해야 할 수도 있습니다. 혹시 시도해 보시는 분이 있다면 어떻게 되었는지 알려주세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기