본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 06. 15. 09:23

Docker 기반 Nemotron 3.5 ASR — Parakeet에서 전환, 더 나은 다국어 지원 + 스트리밍 (CPU에서 실시간 속도

요약

Parakeet에서 Nemotron 3.5 ASR로 전환하여 다국어 지원과 스트리밍 성능을 개선한 사례를 소개합니다. Docker를 통해 컨테이너화되었으며, CPU 환경에서도 onnxruntime-genai를 활용해 실시간보다 4.5배 빠른 속도를 구현했습니다.

핵심 포인트

  • 40개 이상의 로케일을 지원하는 강력한 다국어 성능
  • 전체 파일 버퍼링이 필요 없는 네이티브 스트리밍 아키텍처
  • onnxruntime-genai 기반 CPU 환경에서의 높은 처리 속도
  • Docker를 활용한 간편한 배포 및 API 호출 예시 제공

저는 원래 음성 인식 (Speech Recognition) 파이프라인에 Parakeet를 사용하고 있었지만, Nemotron 3.5를 시도해 보기로 결정했습니다. 몇 가지 다국어 오디오 클립으로 테스트해 본 결과, 지금까지 아주 잘 작동하고 있습니다.

제가 마음을 굳힌 이유:

  • 더 나은 언어 지원 (하나의 모델로 40개 이상의 로케일 지원)
  • 네이티브 스트리밍 (Native streaming) 아키텍처 — 더 이상 전체 파일을 버퍼링할 필요가 없음
  • CPU에서 테스트했을 때 onnxruntime-genai를 백엔드로 사용하여 실시간 속도(realtime speed)의 약 4.5배를 기록함

Docker로 컨테이너화했기 때문에 바로 클론(clone)해서 실행할 수 있습니다. 클라이언트에서 API를 호출하는 방법(스트리밍 및 파일 업로드 모두 포함)을 보여주는 예시 파일들이 있습니다. 저장소(repo)는 댓글에 있습니다.

한 가지 — 아직 CUDA 지원은 테스트하지 않았습니다. 기본적으로 작동해야 하겠지만, GPU에서 실행하려면 yaml 파일과 requirements.txt를 약간 수정해야 할 수도 있습니다. 혹시 시도해 보시는 분이 있다면 어떻게 되었는지 알려주세요.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0