arXiv논문2026. 05. 25. 16:47

GEMQ: MoE LLM을 위한 글로벌 전문가 수준 혼합 정밀도 양자화

요약

MoE-LLM의 메모리 오버헤드를 해결하기 위해 전문가별 중요도에 따라 비트 너비를 다르게 할당하는 GEMQ 양자화 기법을 제안합니다. 글로벌 선형 계획법과 라우터 미세 조정을 통해 양자화 오차를 최소화하고 추론 효율을 극대화합니다.

핵심 포인트

MoE 모델의 전문가별 맞춤형 혼합 정밀도 양자화 제안
글로벌 선형 계획법을 통한 전문가 중요도 포착
양자화에 따른 라우터 이동 문제를 미세 조정으로 해결
점진적 양자화 프레임워크를 통한 정확도 및 메모리 최적화

Mixture-of-Experts 거대 언어 모델 (MoE-LLMs)은 강력한 성능을 달성하지만, 방대한 전문가 (expert) 파라미터로 인해 상당한 메모리 오버헤드를 발생시킵니다. 혼합 정밀도 양자화 (Mixed-precision quantization)는 전문가별 중요도에 따라 비트 너비 (bit-widths)를 할당함으로써 이 비용을 완화하며, 정확도-메모리 파레토 프런티어 (Pareto frontier)에 접근하고 극단적인 저비트 양자화를 가능하게 합니다. 그러나 기존 방법들은 레이어 단위 (layer-wise)의 중요도 추정에 의존하며 양자화로 인해 유도되는 라우터 이동 (router shifts)을 간과하여, 최적화되지 않은 할당 및 라우팅 결과를 초래합니다. 본 연구에서는 이러한 한계를 극복하기 위해 다음과 같은 방식을 통해 Global Expert-level Mixed-precision Quantization (GEMQ)를 제안합니다: (1) 양자화 오차 분석을 기반으로 모델 전반의 전문가 중요도를 포착하는 글로벌 선형 계획법 (linear-programming) 공식화, (2) 양자화된 전문가에 라우팅을 적응시키기 위한 효율적인 라우터 미세 조정 (router fine-tuning). 이러한 구성 요소들은 중요도 추정 및 할당을 반복적으로 개선하는 점진적 양자화 (progressive quantization) 프레임워크에 통합됩니다. 실험을 통해 GEMQ가 정확도 저하를 최소화하면서 메모리를 크게 줄이고 추론을 가속화함을 입증하였습니다. 소스 코드는 https://github.com/jndeng/GEMQ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

GEMQ: MoE LLM을 위한 글로벌 전문가 수준 혼합 정밀도 양자화

요약

핵심 포인트

댓글