arXiv논문2026. 06. 10. 10:33

최적의 사후 학습 양자화 스케일과 그 탐색 방법

요약

본 연구는 사후 학습 양자화(PTQ) 시 가중치 스케일을 최적화하는 PiSO 알고리즘을 제안합니다. 캘리브레이션 데이터를 활용해 스케일 탐색 공간을 유한한 구간으로 분할하여 정확한 스케일링 인자를 계산합니다. Llama 및 Qwen 모델 실험을 통해 낮은 비트 환경에서도 퍼플렉시티와 정확도가 개선됨을 입증했습니다.

핵심 포인트

PiSO 알고리즘을 통한 채널별 가중치 스케일 최적화
스케일 탐색 공간을 폐쇄형 최소화가 가능한 구간으로 분할
그룹별 양자화 확장 및 오차 수정 전략 제안
저비트 양자화 환경에서 성능 개선 효과 극대화

사후 학습 양자화 (Post-training quantization, PTQ)는 가중치 (weights)를 낮은 비트 표현 (low-bit representations)으로 매핑하여 대규모 언어 모델 (large language models)을 압축합니다. 양자화 그리드 (quantization grid)를 정의하는 스케일링 인자 (scaling factor)는 일반적으로 단순하고 데이터가 필요 없는 휴리스틱 (data-free heuristics)을 사용하여 선택됩니다. 본 연구에서는 반올림 양자화 (round-to-nearest quantization) 환경에서 캘리브레이션 데이터 (calibration data)를 활용하여 채널별 (channel-wise) 가중치 스케일을 정확하고 효율적으로 계산하는 알고리즘인 PiSO (Piecewise Scale Optimization)를 제시합니다. PiSO는 스케일 탐색 공간을 목적 함수 (objective)가 폐쇄형 최소화 값 (closed-form minimizer)을 허용하는 유한한 구간들로 분할합니다. 우리는 원칙적인 휴리스틱을 통해 PiSO를 그룹별 양자화 (group-wise quantization)로 확장하였으며, 스케일 최적화와 오차 수정 (error correction)을 교차시키는 효과적인 전략을 제안합니다. 다양한 모델 크기와 목표 가중치 비트 너비 (target weight bit-widths)에 걸쳐 Llama 및 Qwen 모델을 대상으로 수행한 실험 결과, 단독 사용 시와 오차 수정과 결합했을 때 모두 퍼플렉시티 (perplexity) 및 다운스트림 제로샷 정확도 (downstream zero-shot accuracy)에서 일관된 개선을 입증하였습니다. 특히, 목표 비트 너비가 좁아지고 양자화가 더 어려워질수록 그 이점이 커지는 것을 확인하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

최적의 사후 학습 양자화 스케일과 그 탐색 방법

요약

핵심 포인트

댓글