최적의 사후 학습 양자화 스케일과 그 탐색 방법
요약
본 연구는 사후 학습 양자화(PTQ) 시 가중치 스케일을 최적화하는 PiSO 알고리즘을 제안합니다. 캘리브레이션 데이터를 활용해 스케일 탐색 공간을 유한한 구간으로 분할하여 정확한 스케일링 인자를 계산합니다. Llama 및 Qwen 모델 실험을 통해 낮은 비트 환경에서도 퍼플렉시티와 정확도가 개선됨을 입증했습니다.
핵심 포인트
- PiSO 알고리즘을 통한 채널별 가중치 스케일 최적화
- 스케일 탐색 공간을 폐쇄형 최소화가 가능한 구간으로 분할
- 그룹별 양자화 확장 및 오차 수정 전략 제안
- 저비트 양자화 환경에서 성능 개선 효과 극대화
사후 학습 양자화 (Post-training quantization, PTQ)는 가중치 (weights)를 낮은 비트 표현 (low-bit representations)으로 매핑하여 대규모 언어 모델 (large language models)을 압축합니다. 양자화 그리드 (quantization grid)를 정의하는 스케일링 인자 (scaling factor)는 일반적으로 단순하고 데이터가 필요 없는 휴리스틱 (data-free heuristics)을 사용하여 선택됩니다. 본 연구에서는 반올림 양자화 (round-to-nearest quantization) 환경에서 캘리브레이션 데이터 (calibration data)를 활용하여 채널별 (channel-wise) 가중치 스케일을 정확하고 효율적으로 계산하는 알고리즘인 PiSO (Piecewise Scale Optimization)를 제시합니다. PiSO는 스케일 탐색 공간을 목적 함수 (objective)가 폐쇄형 최소화 값 (closed-form minimizer)을 허용하는 유한한 구간들로 분할합니다. 우리는 원칙적인 휴리스틱을 통해 PiSO를 그룹별 양자화 (group-wise quantization)로 확장하였으며, 스케일 최적화와 오차 수정 (error correction)을 교차시키는 효과적인 전략을 제안합니다. 다양한 모델 크기와 목표 가중치 비트 너비 (target weight bit-widths)에 걸쳐 Llama 및 Qwen 모델을 대상으로 수행한 실험 결과, 단독 사용 시와 오차 수정과 결합했을 때 모두 퍼플렉시티 (perplexity) 및 다운스트림 제로샷 정확도 (downstream zero-shot accuracy)에서 일관된 개선을 입증하였습니다. 특히, 목표 비트 너비가 좁아지고 양자화가 더 어려워질수록 그 이점이 커지는 것을 확인하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기