HuggingFace헤드라인2026. 05. 07. 14:09

AutoRound 소개: LLM 및 VLM 전용 고급 양자화 방법

요약

AutoRound는 인텔이 개발한 가중치 기반의 후학습 양자화(PTQ) 방법으로, 최소한의 정확도 손실로 INT2부터 INT8까지의 저비트 양자화를 가능하게 합니다. 이 방법은 부호화된 경사 하강법을 사용하여 가중치 반올림과 클립 범위를 동시에 최적화하며, 특히 2비트 정밀도와 같은 극저비트 시나리오에서 높은 성능 우위를 보여줍니다. AutoRound는 LLM 및 VLM 모두를 지원하며, Qwen, LLaMA 등 주요 아키텍처를 포괄합니다. 또한 GPTQ/AWQ와 같은 기존 양자화 형식으로 내보내기 기능을 제공하고, 'auto-round-best'와 'auto-round-light' 두 가지 레시피를 통해 사용자가 원하는 정확도와 속도를 선택할 수 있습니다.

핵심 포인트

AutoRound는 가중치만 사용하는 PTQ 기법으로, 저비트 양자화(INT2~INT8)에서 높은 효율성을 제공합니다.
부호화된 경사 하강법을 통해 가중치 반올림과 클립 범위를 동시에 최적화하여 정확도 손실을 최소화합니다.
LLM 및 VLM 모두를 지원하며, Qwen, LLaMA 등 주요 모델 아키텍처에 적용 가능합니다.
GPTQ/AWQ/GGUF 포맷 출력을 지원하고, 'best'와 'light' 두 가지 레시피로 사용자가 최적화된 양자화 전략을 선택할 수 있습니다.
A100 GPU에서 72B 모델 양자화에 약 37분 소요 등 빠른 속도와 효율성을 자랑합니다.

AutoRound 는 인텔이 개발한 가중치만 사용하는 후학습 양자화 (PTQ) 방법입니다. 이 방법은 양자화된 가중치를 최적화하기 위해 부호화된 경사 하강법을 사용하여 가중치 반올림과 클립 범위를 동시에 최적화하며, 대부분의 시나리오에서 최소한의 정확도 손실로 저비트 양자화 (예: INT2 - INT8) 를 가능하게 합니다. 예를 들어, INT2 에서 인텔은 일반적인 기저라인에 비해 상대적 정확도가 최대 2.1 배 높습니다. 아래 이미지는 AutoRound 의 핵심 알고리즘 개요를 제공합니다. 자세한 내용은 논문을 참조하세요.

강력한 성능에도 불구하고, AutoRound 는 빠르고 경량화되어 있습니다 — A100 GPU 에서 72B 모델을 양자화하는 것은 가벼운 모드에서 37 분만 걸립니다. 또한 혼합 비트 튜닝, lm-head 양자화, GPTQ/AWQ/GGUF 포맷 내보내기 및 유연한 튜닝 레시피를 지원합니다.

AutoRound 는 특히 저비트 양자화 시나리오에서 매우 유망한 결과를 제공합니다. 다양한 작업에 대한 평가는 2 비트 정밀도 (소스) 에서 일반적인 방법보다 광범위한 간격으로 우위를 점함을 보여줍니다. 4 비트에서는 Low-Bit Open LLM 리더보드에서 입증된 대로 AutoRound 는 대부분의 경우 경쟁력을 유지합니다.

W2g128 에서 10+ 작업 평균

W4 에서 10+ 작업 평균

LLMs: AutoRound 는 Qwen, LLaMA, DeepSeek 등 잘 알려진 모델과 함께 거의 모든 인기 있는 LLM 아키텍처를 지원합니다. OPEA, Kaitchup, fbaldassarri 등의 컬렉션을 통해 Hugging Face 에서 바로 사용할 수 있는 양자화 모델을 제공합니다.

VLMs: AutoRound 는 Mistral-Small-3.1, Gemma3 등 10 개 이상의 시각 언어 모델 (VLM) 을 지원합니다. 전체 목록은 README 에서 찾을 수 있으며, 바로 사용할 수 있는 양자화 모델은 OPEA Hugging Face 컬렉션에서 사용할 수 있습니다. 아직 지원되지 않는 모델의 경우 --iters 0 를 사용하여 RTN 방법을 적용할 수 있습니다. 튜닝이 필요 없으나 일부 정확도 손실이 예상됩니다.

CPUIntel GPUCUDA

Int8 Weight OnlyInt4 Weight OnlyInt3 Weight OnlyInt2 Weight OnlyMixed bits Weight only

AutoRoundGPTQAWQ****Some GGUFs

AutoRound 는 높은 정확도를 달성하기 위해 200 단계의 튜닝 단계와 작은 교정 데이터셋 (최소 128 샘플) 만 필요합니다. 이 효율성은 다른 int2 방법보다 계산적 집약도가 높아 양자화 시간이 더 빠르고 자원 소비가 줄어듭니다.

| AutoAWQ samples=128 seqlen=512 dataset='pile' |
AutoAWQ samples=512 seqlen=2048 dataset='pile' |
GPTQ in Transfomers samples=? seqlen=? dataset='c4' |
AutoRoundLight samples=128 seqlen=2048 dataset='pile-10k' |
AutoRound samples=128 seqlen=2048 dataset='pile-10k' |
AutoRound samples=512 seqlen=2048 dataset='pile-10k |

|---|---|---|---|---|---|---|
| Qwen2.5 3B | 7min | 17min | 13min | 3min | 8min | 9min |
| Llama3.1-8B | 13min | 27min | 22min | 6min | 13min | 17min |
| Qwen2.5 72B | 105min | 230min | OOM | 37min | 120min | 149min |

pip install auto-round

현재는 양자화 모델을 생성하기 위해 오프라인 모드만 지원됩니다.

auto-round \n--model Qwen/Qwen3-0.6B \n--bits 4 \n...

AutoRound 는 최적의 정확도와 향상된 속도를 위한 두 가지 레시피 auto-round-best 와 auto-round-light 를 제공합니다.

auto-round-best \n--model Qwen/Qwen3-0.6B \n--output_dir ./tmp_autoround

2 비트를 위해 auto-round-best 나 auto-round 를 사용하는 것을 권장합니다. 세 가지 레시피의 비교는 아래 표를 참조하세요.

W4G128 13 가지 작업 (mmlu-pro, if_eval, gsm8k 등) 의 평균 정확도 및 시간 비용 결과 (테스트는 PyTorch 2.6.0 버전과 enable_torch_compile 옵션을 사용한 Nvidia A100 80G 에서 수행됨):

모델	Qwen2.5-0.5B-Instruct	Falcon3-3B	Qwen2.5-7B-Instruct	Meta-Llama-3.1-8B-Instruct	Falcon3-10B	Qwen2.5-72B-Instruct
16bits	0.4192	0.5203	0.6470	0.6212	0.6151	0.7229
Best	0.4137(7m)	0.5142(23m)	0.6426(58m)	0.6116(65m)	0.6092(81m)	0.7242(575m)
Default	0.4129(2m)	0.5133(6m)	0.6441(13m)	0.6106(13m)	0.6080(18m)	0.7252(118m)
Light	0.4052(2m)	0.5108(3m)	0.6453(5m)	0.6104(6m)	0.6063(6m)	0.7243(37m)

이 설정은 정확도와 튜닝 비용 사이의 더 나은 균형을 제공합니다. 모든 시나리오에서 권장됩니다.

from transformers import AutoModelForCausalLM, AutoTokenizer
from auto_round import AutoRound
model_name = "Qwen/Qwen3-0.6B"
...

AutoRound 의 Best/Light 설정을 API 사용 또는 혼합 비트 구성에 사용할 경우, AutoRound README 를 참조하세요.

AutoRound 는 설치된 라이브러지에 따라 자동으로 가장 적합한 백엔드를 선택하며, 더 나은 백엔드가 발견되면 사용자에게 추가 라이브러리를 설치하도록 안내합니다. 자세한 내용은 HF README 또는 AutoRound README 를 참조하세요.

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "OPEA/Qwen2.5-1.5B-Instruct-int4-sym-inc"
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype="auto")
...

대부분의 GPTQ/AWQ 모델은 Intel 장치와의 더 나은 호환성과 지원을 위해 AutoRound 형식으로 변환할 수 있습니다. 모델을 직렬화하면 양자화 설정이 변경됨을 주의하세요.

from transformers import AutoModelForCausalLM, AutoTokenizer, AutoRoundConfig
model_name = "ybelkada/opt-125m-gptq-4bit"
quantization_config = AutoRoundConfig()
...

AutoRound 는 대규모 언어 및 비주얼 언어 모델의 후처리 양자화에 의미 있는 개선 단계를 제공합니다. 높은 정확도, 탁월한 효율성, 그리고 인기 있는 모델, 장치, 내보내기 형식과의 광범위한 호환성을 결합하여 AutoRound 는 저비트 양자화를 실제적이고 강력하게 만듭니다. 대규모 LLM 배포 또는 VLM 에지 추론 실험이든 간에, AutoRound 는 최소한의 오버헤드로 최적의 성능을 달성하기 위해 필요한 도구와 유연성을 제공합니다. 효율적인 AI 배포의 경계를 넓히는 성장하는 커뮤니티에 참여하고 시도해 보시기 바랍니다.

AutoRound 에 대한 기여는 환영하며 매우 감사드립니다! 버그 수정, 문서 개선, 새 기능 추가, 또는 개선 제안이든 간에, 여러분의 도움이 항상 가치 있습니다.

auto-round 에서 문제가 발생하면 AutoRound 저장소에 이슈를 열어주세요.

CUDA 커널을 AutoRound 에서 사용하는 오픈소스 저정밀 라이브러리인 AutoGPTQ, AutoAWQ, GPTQModel, Triton, Marlin, ExLLaMAV2 에 감사드립니다.

AI 자동 생성 콘텐츠

원문 바로가기

AutoRound 소개: LLM 및 VLM 전용 고급 양자화 방법

요약

핵심 포인트

댓글