Ascend NPU 상에서의 OpenPangu 양자화에 관한 실증적 연구
요약
Huawei Ascend 910B1 NPU 환경에서 OpenPangu 모델의 사후 훈련 양자화(PTQ) 성능을 실증적으로 분석한 연구입니다. 다양한 양자화 기법을 비교하여 비트 수에 따른 모델의 견고성과 성능 저하 양상을 규명했습니다.
핵심 포인트
- 8비트 가중치 전용 양자화는 OpenPangu 모델에서 손실 없이 효과적임
- 4비트 양자화 시 1B 모델은 추론, 수학, 코드 태스크에서 성능 저하가 큼
- 2비트 및 이진 양자화는 모델 성능이 무작위 수준으로 붕괴됨
- W4A4 SmoothQuant는 비유한(Non-finite) 퍼플렉시티를 생성하는 문제 발생
OpenPangu 모델은 개인 및 로컬 대규모 언어 모델 (LLM) 배포를 위한 매력적인 대상이지만, Ascend NPU 상에서 공격적인 사후 훈련 양자화 (Post-training Quantization)를 적용했을 때의 견고함은 아직 체계적으로 규명되지 않았습니다. 본 논문은 Huawei Ascend 910B1 NPU에서 OpenPangu 1B 및 7B 모델을 대상으로 통제된 실증 연구를 수행합니다. 우리는 통합된 보정 (Calibration) 및 평가 프로토콜 하에서 RTN, GPTQ, AWQ, SmoothQuant, GPTAQ, BiLLM, 그리고 SliM-LLM을 포함한 대표적인 가중치 전용 (Weight-only) 및 가중치-활성화 (Weight-activation) 사후 훈련 양자화 방법들을 평가합니다. 18개의 평가 태스크를 통해, 우리는 8비트 가중치 전용 양자화가 두 모델 모두에 대해 효과적으로 손실이 없음을 발견했습니다. 반면, 4비트 양자화는 7B 모델의 경우 실용적인 수준을 유지하지만, 1B 모델의 경우 추론 (Reasoning), 수학 (Math), 코드 (Code) 태스크에서 눈에 띄게 더 해로운 영향을 미칩니다. 초저정밀도 (Ultra-low precision)는 여전히 도전적인 과제로 남아 있습니다. 대부분의 2비트 및 이진 (Binary) 설정은 거의 무작위 (Random)에 가까운 동작으로 붕괴되며, W4A4 SmoothQuant는 우리의 평가에서 비유한 (Non-finite) 퍼플렉시티 (Perplexity)를 생성합니다. 이러한 결과는 OpenPangu 양자화 설정을 선택하기 위한 NPU 지향적 정확도 맵을 제공하며, 극단적인 저비트 압축의 지속적인 어려움을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기