CAT-Q: LLM을 위한 비용 효율적이고 정확한 삼진 양자화 (Ternary Quantization)
요약
CAT-Q는 LLM을 효율적으로 압축하기 위한 새로운 사후 훈련 양자화(PTQ) 기법입니다. 기존의 비용이 많이 드는 양자화 인식 훈련 대신, 학습 가능한 변조(LM)와 부드러운 삼진화(ST)를 통해 적은 데이터로도 높은 정확도의 삼진 모델을 생성합니다.
핵심 포인트
- 비용 효율적인 사후 훈련 양자화(PTQ) 방식 제안
- 학습 가능한 변조(LM)와 부드러운 삼진화(ST) 핵심 기술 적용
- BitNet 대비 훈련 토큰 사용량을 약 100,000배 감소
- 14B에서 235B 규모의 대형 모델까지 확장 가능성 입증
본 논문에서는 LLM(Large Language Models)을 압축하고 가속화하기 위한 비용 효율적이고 정확한 삼진 양자화(Ternary Quantization) 방식인 CAT-Q를 제안합니다. 심각한 성능 저하를 완화하기 위해 데이터 집약적이고 비용이 많이 드는 양자화 인식 훈련(Quantization-Aware Training)에 의존하는 기존의 최첨단 삼진 양자화 방법들과 달리, CAT-Q는 다양한 아키텍처와 모델 크기를 가진 LLM에 즉시 적용 가능한 단순하면서도 효과적인 사후 훈련 양자화(Post-Training Quantization) 기법입니다. CAT-Q는 최적화 관점에서 결합된 두 가지 핵심 구성 요소인 학습 가능한 변조(Learnable Modulation, LM)와 부드러운 삼진화(Softened Ternarization, ST)를 갖추고 있습니다. LM은 학습 가능한 요소들의 조합을 활용하여 사전 훈련된 고정밀 가중치(High-precision weights)의 분포와 삼진 임계값(Ternary threshold)을 변조함으로써, 삼진화에 대한 민감도를 낮춥니다. ST는 삼진화 과정이 안정적인 수렴으로 이어지도록 미분 가능한 전이 함수(Differentiable transition function)를 추가로 도입합니다. 우리는 1.7B에서 8B 파라미터를 가진 사전 훈련된 LLM에 대해, CAT-Q가 단 512개의 보정 샘플(Calibration samples)만을 사용하여 이들을 삼진 모델로 효율적으로 양자화할 수 있음을 보여줍니다. 이는 100B 토큰으로 훈련된 기념비적인 BitNet 1.58-bit v1 및 v2 제품군(1.3B에서 7B 파라미터)보다 우수한 성능을 달성하면서도, 훈련 토큰을 약 100,000배 감소시킨 결과입니다. 또한, 우리는 CAT-Q가 14B에서 235B 파라미터를 가진 훨씬 더 큰 사전 훈련된 LLM을 8개의 A100-80GB GPU에서 단 8~60시간 만에 선도적인 삼진 모델로 양자화할 수 있음을 최초로 입증합니다. 코드는 https://github.com/IntelChina-AI/BitTern 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기