GitHub요약2026. 05. 31. 07:57

UNITES-Lab/MoE-Quantization

요약

MoE 모델의 효율적인 확장을 방해하는 메모리 오버헤드를 해결하기 위해 구조 인식 양자화(Structure-aware quantization)를 연구합니다. MoE의 고유한 희소성을 고려하여 블록, 전문가, 선형 레이어별로 최적의 비트 할당 방식을 제안합니다.

핵심 포인트

MoE 구조별로 최적의 가중치 비트 수가 다름을 규명
거친 입도부터 미세한 입도까지의 양자화 휴리스틱 탐구
가중치 및 활성화 양자화 맥락 모두에서 효과 검증
이상치 식별을 위한 새로운 점수 산출기 도입

논문 "Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark"를 위한 코드입니다. 우리의 코드베이스는 AutoGPTQ를 기반으로 구축되었습니다.

저자 (* 동일 기여): Pingzhi Li, Xiaolong Jin*, Yu Cheng, 그리고 Tianlong Chen.*

대규모 언어 모델 (LLMs)은 자연어 처리 분야의 근간이 되었으며, 모델 크기가 커짐에 따라 성능 향상을 입증하고 있습니다. Mixture-of-Experts (MoE) 방식은 희소 활성화 (sparse activation)를 통해 더 적은 연산량 (FLOPs)을 사용함으로써 LLM을 더 효율적으로 확장할 수 있는 유망한 방법을 제공합니다. 그러나 이는 상당한 메모리 오버헤드 (memory overheads)를 초래하여 모델 압축 기술을 필요로 합니다. 모델 압축을 위한 대중적인 방법인 사후 학습 양자화 (Post-training quantization)는 MoE의 간과된 고유한 희소성 (sparsity) 때문에 MoE 모델에 직접 적용할 경우 효과가 떨어지는 것으로 나타났습니다. 본 논문은 MoE 블록 (MoE block)부터 개별 선형 가중치 (linear weight)에 이르기까지, 거친 입도 (coarse granularity)에서 미세한 입도 (fine granularity)에 이르는 여러 MoE 구조 인식 양자화 휴리스틱 (structure-aware quantization heuristics)을 탐구합니다. 우리의 조사 결과는 다음과 같은 중요한 원칙을 밝혀냈습니다: 서로 다른 MoE 구조(즉, 블록, 전문가, 선형 레이어)는 효과적이고 효율적인 양자화를 위해 서로 다른 수의 가중치 비트 (weight bits)를 필요로 합니다. 결론은 두 개의 대표적인 MoE 모델과 6개의 태스크에 걸친 광범위한 벤치마킹을 통해 뒷받침됩니다. 우리는 더 나아가 더 높은 비트 할당이 필요한 MoE 양자화 내의 가장 중요한 가중치를 더 정확하게 식별하기 위한 새로운 개선 사항을 도입하였으며, 여기에는 선형 가중치 이상치 점수 산출기 (linear weight outlier scorer)와 MoE 블록 점수 산출기 (MoE block scorer)가 포함됩니다. 또한, 후속 실험을 통해 가중치 양자화 (weight quantization) 및 활성화 양자화 (activation quantization) 맥락 모두에서 우리의 발견을 검증합니다.

conda create -n qmoe python=3.10
conda activate qmoe
pip install -r requirements.txt

AI 자동 생성 콘텐츠

원문 바로가기

UNITES-Lab/MoE-Quantization

요약

핵심 포인트

댓글