Reddit요약2026. 06. 15. 09:23

Docker 기반 Nemotron 3.5 ASR — Parakeet에서 전환, 더 나은 다국어 지원 + 스트리밍 (CPU에서 실시간 속도

요약

Parakeet에서 Nemotron 3.5 ASR로 전환하여 다국어 지원과 스트리밍 성능을 개선한 사례를 소개합니다. Docker를 통해 컨테이너화되었으며, CPU 환경에서도 onnxruntime-genai를 활용해 실시간보다 4.5배 빠른 속도를 구현했습니다.

저는 원래 음성 인식 (Speech Recognition) 파이프라인에 Parakeet를 사용하고 있었지만, Nemotron 3.5를 시도해 보기로 결정했습니다. 몇 가지 다국어 오디오 클립으로 테스트해 본 결과, 지금까지 아주 잘 작동하고 있습니다.

제가 마음을 굳힌 이유:

Docker로 컨테이너화했기 때문에 바로 클론(clone)해서 실행할 수 있습니다. 클라이언트에서 API를 호출하는 방법(스트리밍 및 파일 업로드 모두 포함)을 보여주는 예시 파일들이 있습니다. 저장소(repo)는 댓글에 있습니다.

한 가지 — 아직 CUDA 지원은 테스트하지 않았습니다. 기본적으로 작동해야 하겠지만, GPU에서 실행하려면 yaml 파일과 requirements.txt를 약간 수정해야 할 수도 있습니다. 혹시 시도해 보시는 분이 있다면 어떻게 되었는지 알려주세요.

AI 자동 생성 콘텐츠