NVIDIA Model-Optimizer
요약
NVIDIA Model Optimizer(ModelOpt)는 양자화, 가지치기, 증류 등 최첨단 기술을 통해 AI 모델을 가속화하는 라이브러리입니다. Hugging Face, PyTorch와 호환되며 TensorRT-LLM, vLLM 등 추론 프레임워크로의 원활한 배포를 지원합니다.
핵심 포인트
- 양자화, 가지치기, 증류 등 다양한 모델 최적화 기술 제공
- Hugging Face, PyTorch, ONNX 모델 입력 지원
- TensorRT-LLM, vLLM 등 주요 추론 프레임워크와 즉시 통합 가능
- Minitron 워크플로우를 통한 처리량 향상 및 메모리 절감 효과
NVIDIA Model Optimizer (Model Optimizer 또는 ModelOpt라고도 함)는 모델을 가속화하기 위해 양자화 (Quantization), 가지치기 (Pruning), 신경망 구조 탐색 (Neural Architecture Search (NAS)), 증류 (Distillation), 추측적 디코딩 (Speculative Decoding) 및 희소성 (Sparsity)을 포함한 최첨단 모델 최적화 기술로 구성된 라이브러리입니다.
[입력 (Input)] Model Optimizer는 현재 Hugging Face, PyTorch 또는 ONNX 모델 입력을 지원합니다.
[최적화 (Optimize)] Model Optimizer는 사용자가 위의 모델 최적화 기술들을 쉽게 조합하고 최적화된 양자화 체크포인트 (Quantized Checkpoint)를 내보낼 수 있도록 Python API를 제공합니다.
Model Optimizer는 또한 필요한 추론 최적화 기술을 학습하기 위해 NVIDIA Megatron-Bridge, Megatron-LM 및 Hugging Face Accelerate와 통합되어 있습니다.
[배포를 위한 내보내기 (Export for deployment)] NVIDIA AI 소프트웨어 생태계 내에 원활하게 통합되어 있어, Model Optimizer에서 생성된 양자화 체크포인트는 SGLang, TensorRT-LLM, TensorRT 또는 vLLM과 같은 다운스트림 추론 프레임워크에서 즉시 배포할 준비가 됩니다. 통합된 Hugging Face 내보내기 API는 이제 transformers 및 diffusers 모델을 모두 지원합니다.
-
[2026/05/27]
Nemotron-3-Nano-30B-A3B를 위한 엔드 투 엔드 (End-to-end) Minitron 워크플로우: 가지치기 (Pruning) + 2단계 증류 (two-phase distillation) + FP8 양자화 (quantization)를 통해 vLLM 처리량(throughput) 1.64배 향상 및 메모리 사용량 2.6배 감소 달성. - [2026/05/13]
Puzzletron: LLM 및 VLM 모델의 이종 가지치기 (heterogeneous pruning) 및 신경망 구조 탐색 (NAS)을 위한 새로운 알고리즘. - [2026/04/15] 고객 사례: Domyn이 ModelOpt의 Minitron 가지치기 + 증류를 사용하여 Colosseum-355B를 260B로 압축함 -
[2026/03/17] 고객 사례: Bielik.AI가 ModelOpt의 Minitron 가지치기 + 증류를 사용하여 Bielik Minitron 7B를 구축 (크기 33% 감소, 속도 50% 향상, 품질 90% 유지)
-
[2026/03/11] Model Optimizer로 양자화된 Nemotron-3-Super 체크포인트를 Hugging Face에서 다운로드할 수 있습니다: FP8, NVFP4. 자세한 내용은 Nemotron 3 Super 출시 블로그에서 확인하세요. 배포 가속화를 위한 Nemotron 3 모델 양자화 방법은 여기에서 확인하십시오.
-
[2026/03/11] NeMo Megatron Bridge가 이제 Model Optimizer 라이브러리를 사용하는 Nemotron-3-Super 양자화 (PTQ 및 QAT) 및 내보내기 (export) 워크플로우를 지원합니다. FP8/NVFP4 양자화 및 HF 내보내기 지침에 대해서는 양자화 (PTQ 및 QAT) 가이드를 참조하십시오.
-
[2025/12/11] 블로그: 더 빠르고 스마트한 추론 (Inference)을 위한 상위 5가지 AI 모델 최적화 기술
-
[2025/12/08] NVIDIA TensorRT Model Optimizer가 이제 NVIDIA Model Optimizer로 공식 리브랜딩되었습니다.
-
[2025/10/07] 블로그: NVIDIA Model Optimizer를 사용한 LLM의 가지치기 (Pruning) 및 증류 (Distilling)
-
[2025/09/17] 블로그: AI 추론 (Inference) 지연 시간을 줄이기 위한 추측적 디코딩 (Speculative Decoding) 소개
-
[2025/09/11] 블로그: 양자화 인식 훈련 (Quantization Aware Training)이 어떻게 저정밀도 정확도 회복을 가능하게 하는가
-
[2025/08/29] 블로그: 양자화 인식 훈련 (Quantization Aware Training)을 통한 정확도 및 성능 향상을 위한 gpt-oss 미세 조정 (Fine-Tuning)
-
[2025/08/01] 블로그: 사후 훈련 양자화 (Post-Training Quantization)를 통한 LLM의 성능 및 정확도 최적화
-
[2025/06/24] 블로그: 효율적이고 정확한 저정밀도 추론 (Inference)을 위한 NVFP4 소개
-
[2025/05/14] NVIDIA TensorRT, NVIDIA Blackwell GeForce RTX 50 시리즈 GPU를 위한 FP4 이미지 생성 기능 지원
-
[2025/04/21] Adobe, Model-Optimizer + TensorRT를 사용한 배포 최적화로 확산 (Diffusion) 지연 시간 60% 감소 및 총 소유 비용 (TCO) 40% 절감 달성
-
[2025/04/05] NVIDIA, Meta Llama 4 Scout 및 Maverick의 추론 (Inference) 가속화. 배포 가속화를 위한 Llama4 양자화 방법은 여기에서 확인하세요
-
[2025/03/18] Blackwell FP4를 통한 세계에서 가장 빠른 DeepSeek-R1 추론 (Inference) 및 Blackwell에서의 이미지 생성 효율성 증대
-
[2025/02/25] Model Optimizer로 양자화된 NVFP4 모델 Hugging Face에서 다운로드 가능: DeepSeek-R1-FP4, Llama-3.3-70B-Instruct-FP4, Llama-3.1-405B-Instruct-FP4
-
[2025/01/28] Model Optimizer에 NVFP4 지원 추가. NVFP4 PTQ 예제는 여기에서 확인하세요.
-
[2025/01/28] Model Optimizer가 이제 오픈 소스로 공개되었습니다!
이전 뉴스
- [2024/10/23] Model Optimizer가 양자화된 FP8 Llama-3.1 Instruct 모델을 Hugging Face에서 다운로드할 수 있도록 공개했습니다: 8B, 70B, 405B.
- [2024/09/10] NVIDIA NeMo 및 Model Optimizer를 사용한 LLM의 사후 양자화 (Post-Training Quantization).
- [2024/08/28] NVIDIA H200 GPU에서 Model Optimizer를 사용하여 Llama 3.1 405B의 성능을 최대 44% 향상.
- [2024/08/28] Medusa를 통해 Llama 3.1 성능을 최대 1.9배 향상.
- [2024/08/15] 최근 릴리스의 새로운 기능: Cache Diffusion, NVIDIA NeMo를 활용한 QLoRA 워크플로우 등. 자세한 내용은 블로그를 확인하세요.
- [2024/06/03] 인기 있는 배포 프레임워크를 지원하기 위한 노력의 일환으로, Model Optimizer에 vLLM으로 배포할 수 있는 실험적 기능이 추가되었습니다. 워크플로우는 여기에서 확인하세요.
- [2024/05/08] 발표: 생성형 AI (GenAI) 추론 성능을 더욱 가속화하기 위해 Model Optimizer가 이제 정식으로 제공됩니다.
- [2024/03/27] Model Optimizer가 TensorRT-LLM을 강화하여 MLPerf LLM 추론 기록을 경신했습니다.
- [2024/03/18] GTC 세션: TensorRT-LLM 및 TensorRT의 양자화 (Quantization)를 통한 생성형 AI 추론 최적화.
- [2024/03/07] Model Optimizer의 8비트 사후 양자화 (Post-Training Quantization)를 통해 TensorRT가 Stable Diffusion을 거의 2배 더 빠르게 가속화할 수 있습니다.
- [2024/02/01] TRT-LLM에서 Model Optimizer 양자화 기술을 사용하여 추론 속도를 높이세요.
PyPI에서 pip를 사용하여 Model Optimizer의 안정적인 릴리스 패키지를 설치하려면:
pip install -U nvidia-modelopt[all]
Model Optimizer는 추가적인 제3자 오픈 소스 소프트웨어 프로젝트를 다운로드하고 설치합니다. 사용하기 전에 이러한 오픈 소스 프로젝트의 라이선스 약관을 검토하십시오.
모든 개발 의존성을 포함하여 소스에서 수정 가능한 모드 (editable mode)로 설치하거나 최신 기능을 사용하려면 다음을 실행하세요:
# Model Optimizer 저장소 복제
git clone git@github.com:NVIDIA/Model-Optimizer.git
cd Model-Optimizer
...
또한 Model Optimizer가 사전 설치된 NVIDIA 컨테이너 이미지를 직접 사용할 수도 있습니다:
nvcr.io/nvidia/pytorch:<version>-py3
nvcr.io/nvidia/nemo:<version>
nvcr.io/nvidia/tensorrt-llm/release:<version>
컨테이너 이미지를 가져와 사용하기 전에 각 라이선스 약관을 검토해 주세요. 위에서 설명한 대로 Model Optimizer를 최신 버전으로 업그레이드해야 합니다. 설치된 종속성(dependencies)에 대한 더 세밀한 제어나, 설정을 위한 대체 Docker 이미지 및 환경 변수에 대해서는 설치 가이드를 방문하시기 바랍니다.
| 기술 (Technique) | 설명 (Description) | 예시 (Examples) | 문서 (Docs) |
|---|---|---|---|
| 사후 양자화 (Post Training Quantization) | 모델 품질을 유지하면서 모델 크기를 2x-4x 압축하여 추론 (inference) 속도를 높입니다! | [LLMs] [diffusers] [VLMs] [onnx] [windows] | [docs] |
| 양자화 인식 학습 (Quantization Aware Training) | 몇 번의 학습 단계를 통해 정확도를 더욱 정교하게 개선합니다! | [Hugging Face] | [docs] |
| ... |
- 즉시 배포 가능한 체크포인트 [🤗 Hugging Face - Nvidia Model Optimizer Collection]
- TensorRT-LLM, vLLM 및 SGLang에서 배포 가능
- 더 많은 모델이 곧 추가될 예정입니다!
| 모델 유형 (Model Type) | 지원 매트릭스 (Support Matrix) |
|---|---|
| LLM 양자화 (LLM Quantization) | 지원 매트릭스 보기 |
| ... |
Model Optimizer는 지원 중단(deprecated) 기능 관리를 위해 구조화된 접근 방식을 따릅니다:
커뮤니케이션 (Communication): 지원 중단 공지는 변경 이력(Changelog)에 기록됩니다. 지원 중단 항목에는 지원 중단 시점을 나타내는 소스 코드 문구가 포함되며, 사용 시 런타임 경고(runtime warnings)가 발생합니다.
마이그레이션 기간 (Migration Period): Model Optimizer는 아직 1.0 미만 버전이므로, 지원 중단 후 1개 릴리스(~1개월)의 마이그레이션 기간을 제공합니다. 이 기간 동안 지원 중단된 기능은 경고를 발생시키면서 계속 작동합니다.
범위 (Scope): 이 정책은 완전한 지원 중단(전체 API 제거)과 부분적인 지원 중단(메서드는 유지되나 특정 파라미터 제거)을 모두 다룹니다.
제거 (Removal): 마이그레이션 기간이 지나면, 지원 중단된 요소들은 유의적 버전 관리(semantic versioning) 표준에 따라 제거됩니다. Model Optimizer가 0.x 버전에 머물러 있는 동안에도 마이너 버전 업데이트에서 중대한 변경 사항(breaking changes)이 포함될 수 있습니다.
Model Optimizer는 이제 오픈 소스입니다! 모든 피드백, 기능 요청 및 PR(Pull Requests)을 환영합니다. 이 프로젝트에 기여하는 방법에 대한 자세한 내용은 기여 가이드라인(Contributing guidelines)을 읽어주세요.
AI 지원 개발 설정(AI-assisted development setup)에 대해서는 에이전트 툴링 노트(agent tooling notes)를 참조하세요.
즐거운 최적화 되시길 바랍니다!
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub ML Hardware의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기