arXiv논문2026. 06. 23. 14:23

HyperQuant: 대규모 언어 및 확산 모델을 위한 속도-왜곡 최적화 양자화 파이프라인

요약

HyperQuant는 LLM과 확산 트랜스포머의 가중치 및 KV 캐시를 위한 통합 사후 학습 양자화 파이프라인입니다. Hadamard 변환과 격자 양자화 등을 결합하여 매우 낮은 비트에서도 품질 손실 없이 높은 압축률을 달성합니다.

핵심 포인트

가중치 및 KV 캐시를 위한 통합 양자화 파이프라인 제안
Hadamard 변환과 최적 격자 양자화 기술 결합
LLM 및 비디오 모델(LTX-2 DiT)에서 높은 압축 효율 입증
H100 Tensor-Core MMA 경로와의 통합 지원

우리는 대규모 언어(Large Language) 및 확산 트랜스포머(Diffusion Transformers)의 가중치(Weights)와 KV 캐시(KV cache)를 위한 통합 사후 학습 양자화(Post-training quantization) 파이프라인인 HyperQuant (Hadamard, optimallY Packing, Entropy Rice-coding)를 선보입니다. 일련의 독립적인 실험(Table 1)을 통해, HyperQuant는 가중치에 대해 스칼라당 3~5 비트(bps) 범위의 모든 동작 지점에서 최근의 HIGGS 스킴(scheme)보다 뛰어난 성능을 보였으며, KV 양자화에서는 1.7 bps까지 TurboQuant와 OCTOPUS를 모두 능가했습니다. LLM 설정을 넘어, HyperQuant는 19B 파라미터의 LTX-2 DiT 비디오 모델을 프레임당 눈에 띄는 아티팩트(artifacts) 없이 양자화합니다. H100에서 4 bps로 엔드 투 엔드(End-to-end) 수행 시, HyperQuant는 선형 가중치(linear weights)를 약 3.9배, KV 캐시를 약 3.79배 압축하면서도 거의 손실이 없는(near-lossless) 품질을 유지합니다. HyperQuant는 네 가지 기존 아이디어를 하나의 구조로 결합합니다: (i) 가중치와 활성화(activations)의 좌표별 분포를 근사적으로 가우시안(Gaussian)으로 만드는 타일별 무작위 Hadamard 변환(Randomized Hadamard Transform); (ii) 저차원 최적 격자(low-dimensional optimal lattice: E8, D4, A2 또는 Z)로의 양자화; (iii) 격자 인덱스(lattice indices)에 대한 무손실 비트 스트리핑(bit-stripping) 및 근사 엔트로피 최적 가변 길이 Rice 코딩(Rice coding); (iv) 내적(inner products) 하에서 재구성을 편향되지 않게 유지하여 어텐션(attention) 의미론을 보존하는 KV 캐시용 편향 수정(bias-correction) 방법입니다. 우리는 또한 이 파이프라인을 8비트 및 4비트 Tensor-Core MMA 경로(fp8-e4m3, int8, nvfp4, mxfp4)와 통합하였으며, post-RHT 격자 출력에서 int8이 fp8보다 우수함을 확인했습니다. 프로젝트 페이지: https://moonmath.ai/hyperquant/

AI 자동 생성 콘텐츠

원문 바로가기

HyperQuant: 대규모 언어 및 확산 모델을 위한 속도-왜곡 최적화 양자화 파이프라인

요약

핵심 포인트

댓글