UniSVQ: 2-bit 통합 스칼라-벡터 양자화 (Unified Scalar-Vector Quantization)
요약
UniSVQ는 스칼라 양자화(SQ)와 벡터 양자화(VQ)를 결합한 새로운 2-bit 통합 양자화 프레임워크입니다. 정수 격자의 아핀 변환을 통해 VQ의 유연성을 유지하면서도 SQ의 계산 효율성을 확보하여 LLM의 추론 성능을 극대화합니다.
핵심 포인트
- SQ와 VQ의 장점을 결합한 통합 2-bit 양자화 제안
- 정수 커널 호환성을 유지하며 VQ의 유연성 보존
- 데이터 기반 블록 단위 미세 조정 전략 도입
- 기존 SQ 대비 우수한 성능 및 높은 추론 처리량 달성
2-bit 수준의 사후 학습 양자화 (Post-training quantization)는 대규모 언어 모델 (LLMs)의 저비용 배포 및 추론 가속화를 가능하게 합니다. 스칼라 양자화 (Scalar quantization, SQ)와 벡터 양자화 (Vector quantization, VQ)는 두 가지 주요 양자화 방법이지만, 전자는 상당한 성능 저하를 겪고 후자는 계산 및 저장 오버헤드를 발생시킵니다. 우리는 코드워드 (codewords)를 정수 격자 (integer lattices)의 아핀 변환 (affine transform)으로 매개변수화함으로써 스칼라 양자화와 벡터 양자화를 연결하는 통합 2-bit 양자화 프레임워크인 UniSVQ를 제안합니다. 이 구조는 최적화된 정수 커널 (integer kernels)과의 호환성을 유지하면서 VQ의 유연성을 상당 부분 보존합니다. 나아가 우리는 양자화 재구성 오차 (quantization reconstruction error)를 직접적으로 최소화하기 위한 데이터 기반 블록 단위 미세 조정 (block-wise fine-tuning) 전략을 도입합니다. 다양한 LLM 제품군과 제로샷 (zero-shot) 벤치마크에 걸친 광범위한 실험을 통해, UniSVQ가 최신 SQ 방법들을 일관되게 능가하고 고급 VQ 방법들과 대등한 성능을 달성하는 동시에 더 높은 추론 처리량 (inference throughput)을 제공함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기