UNITES-Lab/MoE-Quantization
요약
MoE 모델의 효율적인 확장을 방해하는 메모리 오버헤드를 해결하기 위해 구조 인식 양자화(Structure-aware quantization)를 연구합니다. MoE의 고유한 희소성을 고려하여 블록, 전문가, 선형 레이어별로 최적의 비트 할당 방식을 제안합니다.
핵심 포인트
- MoE 구조별로 최적의 가중치 비트 수가 다름을 규명
- 거친 입도부터 미세한 입도까지의 양자화 휴리스틱 탐구
- 가중치 및 활성화 양자화 맥락 모두에서 효과 검증
- 이상치 식별을 위한 새로운 점수 산출기 도입
논문 "Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark"를 위한 코드입니다. 우리의 코드베이스는 AutoGPTQ를 기반으로 구축되었습니다.
저자 (* 동일 기여): Pingzhi Li, Xiaolong Jin*, Yu Cheng, 그리고 Tianlong Chen.*
대규모 언어 모델 (LLMs)은 자연어 처리 분야의 근간이 되었으며, 모델 크기가 커짐에 따라 성능 향상을 입증하고 있습니다. Mixture-of-Experts (MoE) 방식은 희소 활성화 (sparse activation)를 통해 더 적은 연산량 (FLOPs)을 사용함으로써 LLM을 더 효율적으로 확장할 수 있는 유망한 방법을 제공합니다. 그러나 이는 상당한 메모리 오버헤드 (memory overheads)를 초래하여 모델 압축 기술을 필요로 합니다. 모델 압축을 위한 대중적인 방법인 사후 학습 양자화 (Post-training quantization)는 MoE의 간과된 고유한 희소성 (sparsity) 때문에 MoE 모델에 직접 적용할 경우 효과가 떨어지는 것으로 나타났습니다. 본 논문은 MoE 블록 (MoE block)부터 개별 선형 가중치 (linear weight)에 이르기까지, 거친 입도 (coarse granularity)에서 미세한 입도 (fine granularity)에 이르는 여러 MoE 구조 인식 양자화 휴리스틱 (structure-aware quantization heuristics)을 탐구합니다. 우리의 조사 결과는 다음과 같은 중요한 원칙을 밝혀냈습니다: 서로 다른 MoE 구조(즉, 블록, 전문가, 선형 레이어)는 효과적이고 효율적인 양자화를 위해 서로 다른 수의 가중치 비트 (weight bits)를 필요로 합니다. 결론은 두 개의 대표적인 MoE 모델과 6개의 태스크에 걸친 광범위한 벤치마킹을 통해 뒷받침됩니다. 우리는 더 나아가 더 높은 비트 할당이 필요한 MoE 양자화 내의 가장 중요한 가중치를 더 정확하게 식별하기 위한 새로운 개선 사항을 도입하였으며, 여기에는 선형 가중치 이상치 점수 산출기 (linear weight outlier scorer)와 MoE 블록 점수 산출기 (MoE block scorer)가 포함됩니다. 또한, 후속 실험을 통해 가중치 양자화 (weight quantization) 및 활성화 양자화 (activation quantization) 맥락 모두에서 우리의 발견을 검증합니다.
conda create -n qmoe python=3.10
conda activate qmoe
pip install -r requirements.txt
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub ML Hardware의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기