ModelCloud/GPTQModel

HF, vLLM, 그리고 SGLang을 통해 NVIDIA CUDA, AMD ROCm, Huawei Ascend NPU, Intel XPU, 그리고 Intel/AMD/Apple CPU를 위한 하드웨어 가속 지원을 갖춘 LLM 모델 양자화 (quantization, compression) 툴킷입니다.

05/25/2026 7.1.0-dev
main

: ✨ hunyuan_v1_dense 및 hunyuan_v1_moe 모델 지원 추가

05/21/2026 7.1.0-dev
main

: ✨ nemotron_labs_diffusion 모델 지원 추가

05/20/2026 7.1.0-dev
main

: ✨ interns1, ovis2_5, ovis2_6_moe 및 ovis2_6_next 모델 지원 추가

05/15/2026 7.1.0-dev
main

: ✨ mimo_v2 모델 지원 추가

05/13/2026 7.1.0-dev
main

: ✨ minicpmv_4_6 및 DeepSeek V4 모델 지원 추가

05/07/2026 7.1.0-dev
main

: ✨ GLM-4.5V, GLM-4.6V, Zamba 및 Zamba2 모델 지원 추가

04/29/2026 7.1.0-dev
main

: ✨ fused Laguna MoE 체크포인트를 위한 PoolSideAI Laguna 모델 지원 추가. ERNIE 4.5 VL MoE, Ling-2.6-flash 및 NVIDIA Nemotron 3 Nano Omni 모델 지원 추가.

04/28/2026 7.0.0: 🚀 GPTQ, AWQ, ParoQuant, GGUF, QQQ, 그리고 EXL3를 위한 네이티브 torch 커널을 통해 Huawei Ascend NPU 지원 추가. internvl_chat, gemma3n, GLM-OCR, GLM-ASR, 그리고 falcon_mamba 모델 지원 추가.
04/16/2026 6.1.0: 🚀🔥⚡ CUDA 커널이 이제 완전히 JIT 컴파일되어, wheel 크기를 약 300배 줄이고 사용하는 것만 빌드합니다; Marlin은 이제 NVIDIA Turing+ GPU를 지원하며, Machete 커널 검증이 지원되는 GPU를 모두 포함합니다. GLM 5/5.1이 라인업에 합류하였고, LazyTurtle 및 AWQ / multi-GPU MoE 수정 사항을 통해 대규모 모델 양자화가 더 쉽고, 가볍고, 부드러워졌습니다.
04/03/2026 6.0.3: 🎉 새로운 양자화 방법: ParoQuant, GGUF, FP8, EXL3, 그리고 FOEM: First-Order Error Matters. PrismML/Bonsai 1bit 모델 양자화 (추론 전용) 추가, 더 빠른 ParoQuant/AWQ 커널, ParoQuant optimization scope 제어: module (Paro Lite) 또는 layer (Paro reference), 그리고 Gemma4, MiniCPM-O, MiniCPM-V, GLM4 MoE Lite 모델 지원 추가.
03/19/2026 5.8.0: ✨ fused의 자동 디퓨징(auto-defusing)을 포함한 HF Transformers 5.3.0 지원

pypi 패키지 Defuser를 통한 모델 지원. Qwen 3.5 제품군 지원이 추가되었습니다. GPTQ/AWQ를 위한 새로운 빠른 HF cpu 커널이 추가되었습니다. GPTQ를 위한 실험적인 INT8 cpu 커널이 추가되었습니다.

아카이브된 뉴스

02/09/2026 5.7.0: ✨ MoE 전문가의 더 높은 품질 양자화(quantization)를 위해 여러 가지 브루트 포스(brute-force) MoE 라우팅 제어를 허용하는 Bypass 및 Override 옵션이 포함된 새로운 MoE.Routing 설정이 추가되었습니다. FailSafeStrategy와 결합하여, GPTQModel은 이제 효율적인 MoE 전문가 양자화를 위한 세 가지 별도의 제어 설정을 갖게 되었습니다. AWQ의 qcfg.zero_point 속성이 통합된 sym 대칭(symmetry) 속성과 병합되었습니다; zero_point=True는 이제 sym=False가 됩니다. AWQ의 sym=True 패킹/추론(inference) 문제 및 일부 Qwen3 모델과의 양자화 호환성을 수정했습니다. Exaone 4.0 지원. -
12/31/2025 5.7.0-dev: ✨ 일부 MoE 모듈의 양자화 문제를 야기하는 MoE 전문가의 불균형한 라우팅 문제를 해결하기 위해, 기본적으로 자동 활성화되는 새로운 FailSafe 설정 및 FailSafeStrategy가 추가되었습니다. 기본적으로 RTN을 사용하는 FailSafe 양자화에서 이상치(outliers)의 영향을 줄이기 위해 FailSafeStrategy에 Smooth 연산이 도입되었습니다. 서로 다른 FailSafeStrategy 및 Smoothers를 선택할 수 있습니다. FailSafe를 활성화하기 위한 Threshold 또한 사용자 정의가 가능합니다. 새로운 Voxtral 및 Glm-4v 모델 지원, 그리고 Qwen2-Omni를 위한 오디오 데이터셋 보정(calibration)이 추가되었습니다. GLM 4.5-Air에 대한 AWQ 호환성 수정. -
12/17/2025 5.6.2-12 패치: uv 호환성을 수정했습니다. 이제 uv 및 pip 설치 모두에서 외부 wheel/의존성(dependency) 다운로드 시 UI 진행 상황을 표시합니다. macOS 및 AWQMarlin 커널 로딩 임포트 회귀(regressions) 문제를 수정했습니다. Ubuntu, Arch, RedHat 및 기타 배포판에서의 대부분의 multi-arch 컴파일 문제를 해결했습니다. multi-arch 빌드 문제 및 멀티 GPU에서의 Tritonv2 커널 실행 버그를 수정했습니다. 3-bit Triton GPTQ 커널의 역양자화(dequant)/추론 문제 및 최신 pip/setuptools와의 license 속성 호환성 문제를 수정했습니다. -
12/9/2025 5.6.0: ✨ AMX, AVX2 및 AVX512에 최적화된 CPU용 새로운 HF Kernel이 추가되었습니다.

. auto-model 지원을 위한 Auto module tree. AfMoE 및 Dots1 모델 지원 추가. pre-layer pass 양자화 속도 저하 문제 수정. GPTQ 및 AWQ 모두에 대해 HF Transformers, PEFT 및 Optimum 지원 개선. 많은 AWQ 호환성 버그 및 회귀(regression) 문제 수정. -
11/9/2025 5.4.0: ✨ 새로운 Intel CPU 및 XPU 하드웨어에 최적화된 AWQ TorchFusedAWQ 커널. Torch Fused 커널이 이제 torch.compile과 호환됩니다. AWQ MoE 모델 호환성 수정 및 VRAM 사용량 감소. -
11/3/2025 5.2.0: ✨ ModelCloud BF16 M2 모델을 통한 MiniMax M2 지원. 다중 3090 (24GB) 장치에서 대규모 MoE의 메모리 사용량을 줄이기 위한 새로운 VramStrategy.Balanced 양자화 속성 추가. ✨ Marin 모델. 새로운 AWQ Torch 레퍼런스 커널. bf16을 위한 AWQ Marlin 커널 수정. 모델 저장 시 GLM 4.5/4.6 MoE에서 mtp 레이어가 누락되는 문제 수정 (HF 버그). 모듈형 리팩토링(Modular refactor). 🎉 multi-GPU 양자화 및 MoE VRAM 절약을 포함한 모든 기능을 지원하며 AWQ 지원이 베타를 벗어났습니다. ✨ Brumby (attention free) 모델 지원. ✨ IBM Granite Nano 지원. 새로운 calibration_concat_separator 설정 옵션. -
10/24/2025 5.0.0: 🎉 nogil Python을 사용하여 multi-GPU 환경의 MoE 모델에 대한 데이터 병렬(Data-parallel) 양자화 지원. CPU RAM 사용량을 대폭 줄이기 위해 offload_to_disk 지원이 기본적으로 활성화되었습니다. 새로운 Intel 및 AMD CPU 하드웨어 가속 TorchFused 커널. 패킹(Packing) 단계가 이제 4배 더 빨라졌으며 양자화 과정에 인라인(inlined)되었습니다. 양자화 중 대규모 모델에 대한 VRAM 압박 감소. act_group_aware는 16k배 이상 빨라졌으며, desc_act=True의 추론 페널티 없이 더 높은 품질의 복구를 위해 desc_act=False일 때의 기본값으로 설정되었습니다. gemm, gemm_fast, marlin 커널을 모두 지원하는 새로운 베타 품질의 AWQ 지원. LFM, Ling, Qwen3 Omni 모델 지원. Bitblas 0.1.0.post1 릴리스를 지원하도록 Bitblas 커널 업데이트. 양자화 속도가 향상되었으며 VRAM 사용량이 감소했습니다. LogBar를 통한 로깅 지원 강화. -
09/16/2025 4.2.5: hyb_act가 act_group_aware로 이름이 변경되었습니다. setup.py 내의 까다로운 torch 임포트(import)를 제거했습니다.

. 패킹(Packing) 버그 수정 및 사전 빌드된 PyTorch 2.8 휠(wheels). -
09/12/2025 4.2.0: ✨ 새로운 모델 지원: Qwen3-Next, Apertus, Kimi K2, Klear, FastLLM, Nemotron H. 새로운 fail_safe boolean 토글을 .quantize()에 추가하여, 매우 불균형한 MoE 모델 학습으로 인해 활성화되지 않은 MoE 모듈을 패치 수정(patch-fix)합니다. LavaQwen2 호환성 수정. 멀티 GPU 환경에서의 GIL=0 CUDA 오류를 패치 수정했습니다. autoround + 최신 transformers와의 호환성을 수정했습니다. -
09/04/2025 4.1.0: ✨ Meituan LongCat Flash Chat, Llama 4, GPT-OSS (BF16), 그리고 GLM-4.5-Air 지원. 모델 양자화(quantization) 테스트를 가속화하기 위해 복잡한 연산 코드 경로를 건너뛰는 새로운 실험적 mock_quantization 설정이 추가되었습니다. -
08/21/2025 4.0.0: 🎉 새로운 그룹 인식 재정렬 (Group Aware Reordering, GAR) 지원. 새로운 모델 지원: Bytedance Seed-OSS, Baidu Ernie, Huawei PanGu, Gemma3, Xiaomi Mimo, Qwen 3/MoE, Falcon H1, GPT-Neo. Transformers >= 4.54와 관련된 메모리 누수 및 다중 모델 호환성 수정. Python >= 3.13t 프리 스레딩(free-threading) 지원이 추가되어, MoE 모델의 양자화 시 거의 N x GPU 선형 스케일링과 패킹 단계에서의 선형 N x CPU 코어 스케일링을 제공합니다. Intel XPU에서 최대 50% 속도 향상을 위한 PyTorch 2.8 조기 액세스 융합 연산(fused-ops) 지원.

10/17/2025 5.0.0-dev main: 👀: EoRA가 이제 멀티 GPU와 호환됩니다. 멀티 GPU 양자화에서의 품질 안정성과 VRAM 사용량을 모두 수정했습니다. 새로운 LFM 및 Ling 모델 지원. -
09/30/2025 5.0.0-dev main: 👀: 새로운 데이터 병렬(Data Parallel) + 멀티 GPU + Python 3.13T (PYTHON_GIL=0) 조합을 통해, v4.2.5 대비 대규모 MoE 모델의 전체 양자화 시간을 80% 이상 단축했습니다. -
09/29/2025 5.0.0-dev main: 🎉 새로운 Qwen3 Omni 모델 지원. AWQ Marlin 커널 통합 + 많은 디스크 오프로드(disk offload), 스레딩(threading), 그리고 메모리 사용량 수정 사항 반영. -
09/24/2025 5.0.0-dev main: 🎉 더 빠르고 인라인(inline) 방식인 패킹을 통해 대규모 MoE 모델의 CPU 메모리를 최대 90% 절약! Qwen3 MoE의 양자화 시간 26% 단축! AWQ Marlin 커널 추가. AWQ Gemm 로딩 버그 수정. act_group_aware는 이제 더 빨라졌으며, 더 높은 품질의 복구를 위해 desc_act가 False인 경우 GPTQ에서 자동으로 활성화됩니다. -
09/19/2025 5.0.0-dev

main

: 👀 새로운 offload_to_disk 속성으로 양자화 (quantization) 단계 중 CPU 메모리 사용량을 약 73.5% 절감했습니다.

양자화 설정 속성(quantization config property)의 기본값은 True로 설정됩니다. -
09/18/2025 5.0.0-dev

main

: 🎉 AWQ 양자화 (quantization) 지원! 향후 양자화 형식을 준비하기 위해 모델 정의를 완전히 리팩토링 (refactor)하고 단순화했습니다. -
08/19/2025 4.0.0-dev

main

: 일부 모델이 추론 (inference) 중에 config.use_cache를 잘못 적용하여 발생하던 양자화 메모리 사용량 문제를 수정했습니다. 일부 모델의 레이어 순전파 (forward) 반환 시그니처를 변경한 Transformers >= 4.54.0 버전과의 호환성을 수정했습니다. -
08/18/2025 4.0.0-dev

main

: GPT-Neo 모델 지원. 에러 캡처 (stack trace) 시의 메모리 누수 (memory leak)를 수정하였고, 많은 모델에 대한 lm_head 양자화 호환성을 수정했습니다. -
07/31/2025 4.0.0-dev

main

: 새로운 그룹 인식 재정렬 (Group Aware Reordering, GAR) 지원 및 Intel XPU를 위한 PyTorch 2.8 융합 연산 (fused-ops) 예비 지원으로 최대 50%의 속도 향상을 제공합니다. -
07/03/2025 4.0.0-dev

main

: 새로운 Baidu Ernie 및 Huawei PanGu 모델 지원. -
07/02/2025 4.0.0-dev

main

: Gemma3 4B 모델 호환성 수정. -
05/29/2025 4.0.0-dev

main

: Falcon H1 모델 지원. Qwen 2.5 VL 모델에 대한 Transformers 4.52+ 호환성을 수정했습니다. -
05/19/2025 4.0.0-dev

main

: Qwen 2.5 Omni 모델 지원. -
05/05/2025 4.0.0-dev

main

: Python 3.13t 프리스레딩 (free-threading) 지원이 추가되었습니다. MoE 모델의 양자화 시 거의 N x GPU 선형 스케일링 (linear scaling)을 제공하며, 패킹 (packing) 단계에서도 N x CPU 코어 선형 스케일링을 제공합니다. -
04/29/2025 3.1.0-dev (현재 4.)

main

: Xiaomi Mimo 모델 지원. Qwen 3 및 3 MoE 모델 지원. 공개 데이터셋 (wikitext)에 존재하는 잘못된 보정 (calibration) 데이터를 필터링하기 위한 quantize(..., calibration_dataset_min_length=10)의 새로운 인자 (arg)가 추가되었습니다. -
04/13/2025 3.0.0: 🎉 새로운 실험적 v2 양자화 옵션이 추가되었습니다. 이는 기존 gptq 대비 GSM8K_PLATINUM 벤치마크를 통해 검증된 향상된 모델 양자화 정확도를 제공합니다. 새로운 Phi4-MultiModal 모델 지원. 새로운 Nvidia Nemotron-Ultra 모델 지원. 새로운 Dream 모델 지원. 새로운 실험적 multi-GPU

양자화 (quantization) 지원. VRAM 사용량 감소. 더 빠른 양자화. -
04/2/2025 2.2.0: 새로운

Qwen 2.5 VL

모델 지원. MoE 모델의 모듈 활성화를 추적하기 위한 새로운 samples 양자화 중 로그 컬럼 추가. Loss 로그 컬럼에 양자화에 친화적이거나 저항력이 있는 모듈을 강조하기 위한 색상 코드 적용. 양자화 중 단계별 (per-step) 진행 통계가 이제 로그 파일로 스트리밍됨. 모델 설정에 기반한 모델의 자동 bfloat16 데이터 타입 (dtype) 로딩. PyTorch/ROCm을 위한 커널 컴파일 수정. 약간 더 빠른 양자화 및 VRAM이 적은 GPU에서의 일부 저수준 OOM (Out of Memory) 문제 자동 해결. -
03/12/2025 2.1.0: ✨ 새로운

QQQ

양자화 방식 및 추론 지원! 새로운 Google Gemma 3 제로 데이 (zero-day) 모델 지원. 새로운 Alibaba Ovis 2 VL 모델 지원. 새로운 AMD Instella 제로 데이 (zero-day) 모델 지원. 새로운 GSM8K Platinum 및 MMLU-Pro 벤치마킹 지원. GPT-QModel을 사용한 Peft Lora 학습이 모든 GPU 및 IPEX 장치에서 이제 30% 이상 빨라짐. 불충분한 보정 데이터 (calibration data)로 인해 양자화 중 활성화되지 않은 MoE 모듈을 자동 감지. ROCm setup.py 호환성 수정. Optimum 및 Peft 호환성 수정. Peft bfloat16 학습 수정. -
03/03/2025 2.0.0: 🎉

GPTQ 양자화 내부 구조가 기능 확장을 위해 여러 단계 (프로세스)로 분리됨. 업스트림으로부터 Marlin 커널 추론 품질 수정 사항 동기화. 환경 제어를 통해 저정밀도 (reduced-precision) Marlin 누적 모드 추가 (GPTQMODEL_MARLIN_USE_FP32=0 설정 시 비활성화, 기본값은 활성화). ModelScope 지원 추가. 로깅 및 CLI 진행률 표시줄 출력이 하단 고정형 진행률 표시와 함께 개편됨. generation_config.json 저장 및 로드 수정. Transformers v4.49.0 호환성 수정. bos가 없는 모델의 호환성 수정. group_size=-1 및 bits=3 패킹 회귀 (regression) 수정. Qwen 2.5 MoE 회귀 수정. 커널 추론 품질의 회귀를 추적하고 모든 비트/그룹 크기를 검사하기 위한 CI 테스트 추가. 로깅/진행률 표시줄을 LogBar 패키지에 위임. setup에서의 ROCm 버전 자동 감지 수정.

설치. -
02/12/2025 1.9.0: ⚡ Offload

tokenizer 패키지에 대한 수정 사항. lm_head 양자화 (quant) 시간 및 VRAM 사용량 최적화. DeepSeek v3/R1 모델 양자화 (quant) VRAM 사용량 최적화. v1.8.1에서의 Optimum 호환성 회귀 (regression) 문제 수정. model.optimize() 사용 시 PyTorch >= 2.5.0 환경에서 Torch 커널 속도 3배 향상. wikitext2와 같은 데이터셋에서 양자화 (quant) 속도와 정확도를 향상시킬 수 있는 기존 GPTQ 데이터 패킹 (packing) 전략을 모방하기 위해, 데이터 concat 모드를 활성화하는 새로운 calibration_dataset_concat_size 옵션 추가. -
02/08/2025 1.8.1: ⚡

DeepSeek v3/R1 모델 지원. 새로운 유연한 가중치 packing

ModelCloud/GPTQModel

요약

핵심 포인트

아카이브된 뉴스

댓글