NVIDIA-NeMo/NeMo
요약
NVIDIA NeMo Speech는 ASR, TTS, 음성 LLM을 포괄하는 음성 모델 연구 및 개발 플랫폼입니다. 이 프레임워크는 기존 코드와 사전 학습된 체크포인트를 활용하여 AI 모델의 생성, 커스터마이징, 배포를 지원합니다. 최근 업데이트로는 Parakeet-unified-en-0.6b (문장 부호/대문자 지원), Nemotron 3 VoiceChat(전이중 대화), MagpieTTS v2602(9개 언어 지원) 등의 모델 출시가 있었습니다. 사용자는 최신 안정 버전을 위해 NGC 컨테이너를 사용해야 하며, 개발 환경으로는 Python 3.12 이상과 PyTorch 2.6 이상을 권장합니다. 또한, 보안 강화를 위해 `torch.load`의 기본 설정이 `weights_only=True`로 변경되었으므로 주의가 필요합니다.
핵심 포인트
- NeMo Speech는 ASR, TTS, 음성 LLM 기능을 통합한 포괄적인 음성 모델 개발 플랫폼이다.
- 최신 기능으로는 문장 부호 및 대문자 지원을 포함하는 Parakeet-unified-en-0.6b와 전이중(full-duplex) 대화가 가능한 Nemotron 3 VoiceChat 등이 출시되었다.
- 안정적인 사용을 위해서는 NGC 컨테이너를 사용하는 것이 권장되며, 개발 환경은 Python 3.12 이상 및 PyTorch 2.6 이상이다.
- PyTorch 2.6부터 `torch.load`의 기본 설정이 보안 강화를 위해 `weights_only=True`로 변경되었으며, 사용 시 주의가 필요하다.
- NeMo는 Apache License 2.0 하에 배포되며, 설치는 `pip install 'nemo-toolkit[all]'` 명령어를 통해 가능하다.
최신 오픈 웨이트 (open weight) 체크포인트와 데모를 확인하려면 우리의 HuggingFace🤗 컬렉션을 방문하세요!
NeMo 저장소 분리 이후 NeMo Speech의 첫 번째 릴리스는 저장소의 변환 과정에 따라 2026년 6월로 예정되어 있습니다. 최신 안정적인 릴리스 버전을 사용하려면 26.02 NGC 컨테이너를 사용해 주세요.
- 2026-04: Parakeet-unified-en-0.6b가 출시되었습니다. 이 모델은 문장 부호 및 대문자 지원을 포함하여 영어에 대해 하나의 모델로 고품질의 오프라인 및 스트리밍 (최소 160ms의 지연 시간) 추론 (inference)을 제공합니다.
- 2023-03: Nemotron 3 VoiceChat이 현재 얼리 액세스 (Early Access)로 출시되었습니다. Nemotron Nano v2 LLM 백본 (backbone)과 Nemotron 음성 및 TTS 디코더 (decoder)를 기반으로 구축된 VoiceChat은 낮은 지연 시간으로 전이중 (full-duplex), 자연스럽고, 중단 가능한 대화를 제공합니다. 데모를 체험해 보고 얼리 액세스를 신청하세요.
- 2026-03: Nemotron-Speech-Streaming v2603이 업데이트되었습니다. 더 크고 다양한 코퍼스 (corpus)로 학습되어 모든 지연 시간 모드에서 더 낮은 WER을 달성했습니다. 데모를 체험해 보고 NIM을 확인하세요.
- 2026-03: MagpieTTS v2602가 9개 언어(En, Es, De, Fr, Vi, It, Zh, Hi, Ja) 지원과 함께 출시되었습니다. 데모를 체험해 보고 NIM을 확인하세요.
- 2026-01: Nemotron-Speech-Streaming이 출시되었습니다: 사용자가 지연 시간-정확도 파레토 곡선 (Pareto curve) 상에서 최적의 지점을 선택할 수 있게 해주는 하나의 체크포인트입니다!
- 2026-01: MagpieTTS가 출시되었습니다.
- 2026: 이 저장소는 오디오, 음성 및 멀티모달 LLM에 집중하도록 피벗 (pivoted)되었습니다. 더 많은 모달리티 (modalities)를 지원하는 마지막 NeMo 릴리스를 보려면 v2.7.0을 참조하세요.
- 2025-08: Parakeet V3 및 Canary V2가 25개 유럽 언어에 대한 음성 인식 및 번역 지원과 함께 출시되었습니다.
- 2025-06: Canary-Qwen-2.5B가 영어 Open ASR 리더보드에서 기록적인 5.63% WER을 달성하며 출시되었습니다.
NVIDIA NeMo Speech는 자동 음성 인식 (ASR), 텍스트 음성 변환 (TTS), 그리고 음성 LLM (Speech LLMs)을 포함한 음성 모델을 연구하는 연구자 및 PyTorch 개발자를 위해 구축되었습니다. 기존 코드와 사전 학습된 모델 체크포인트 (pre-trained model checkpoints)를 활용하여 새로운 AI 모델을 효율적으로 생성, 커스텀 및 배포할 수 있도록 설계되었습니다.
기술 문서는 NeMo Framework User Guide를 참조하십시오.
- Python 3.12 이상
- Pytorch 2.6 이상
- NVIDIA GPU (모델 학습을 수행하려는 경우)
Pytorch 2.6부터,
torch.load는
weights_only=True를 사용하는 것으로 기본 설정됩니다.
일부 모델 체크포인트는 weights_only=False를 사용해야 할 수도 있습니다.
이 경우, torch.load를 사용하는 코드를 실행하기 전에 환경 변수 TORCH_FORCE_NO_WEIGHTS_ONLY_LOAD=1을 설정할 수 있습니다.
하지만, 이는 반드시 신뢰할 수 있는 파일에 대해서만 수행해야 합니다. 신뢰할 수 없는 소스로부터 가중치 전용 (weights only) 이상의 내용을 포함하는 파일을 로드하는 것은 임의 코드 실행 (arbitrary code execution)의 위험이 있을 수 있습니다.
| 버전 | 상태 | 설명 |
|---|---|---|
| Latest | 최신 (즉, main) 브랜치의 문서입니다. | |
| Stable | 안정적인 (즉, 가장 최근 릴리스) 문서 - 추가될 예정 |
NeMo Speech는 pip를 통해 설치할 수 있습니다: pip install 'nemo-toolkit[all]'
CUDA 12.x 또는 13.x를 위한 추가 의존성을 포함하여 설치하려면 각각 pip install 'nemo-toolkit[all,cu12]' 또는 pip install 'nemo-toolkit[all,cu13]'를 사용하십시오.
커뮤니티의 기여를 환영합니다! 프로세스에 대해서는 CONTRIBUTING.md를 참조해 주세요.
NeMo는 Apache License 2.0 라이선스 하에 배포됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Python (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기