본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 25. 16:47

GEMQ: MoE LLM을 위한 글로벌 전문가 수준 혼합 정밀도 양자화

요약

MoE-LLM의 메모리 오버헤드를 해결하기 위해 전문가별 중요도에 따라 비트 너비를 다르게 할당하는 GEMQ 양자화 기법을 제안합니다. 글로벌 선형 계획법과 라우터 미세 조정을 통해 양자화 오차를 최소화하고 추론 효율을 극대화합니다.

핵심 포인트

  • MoE 모델의 전문가별 맞춤형 혼합 정밀도 양자화 제안
  • 글로벌 선형 계획법을 통한 전문가 중요도 포착
  • 양자화에 따른 라우터 이동 문제를 미세 조정으로 해결
  • 점진적 양자화 프레임워크를 통한 정확도 및 메모리 최적화

Mixture-of-Experts 거대 언어 모델 (MoE-LLMs)은 강력한 성능을 달성하지만, 방대한 전문가 (expert) 파라미터로 인해 상당한 메모리 오버헤드를 발생시킵니다. 혼합 정밀도 양자화 (Mixed-precision quantization)는 전문가별 중요도에 따라 비트 너비 (bit-widths)를 할당함으로써 이 비용을 완화하며, 정확도-메모리 파레토 프런티어 (Pareto frontier)에 접근하고 극단적인 저비트 양자화를 가능하게 합니다. 그러나 기존 방법들은 레이어 단위 (layer-wise)의 중요도 추정에 의존하며 양자화로 인해 유도되는 라우터 이동 (router shifts)을 간과하여, 최적화되지 않은 할당 및 라우팅 결과를 초래합니다. 본 연구에서는 이러한 한계를 극복하기 위해 다음과 같은 방식을 통해 Global Expert-level Mixed-precision Quantization (GEMQ)를 제안합니다: (1) 양자화 오차 분석을 기반으로 모델 전반의 전문가 중요도를 포착하는 글로벌 선형 계획법 (linear-programming) 공식화, (2) 양자화된 전문가에 라우팅을 적응시키기 위한 효율적인 라우터 미세 조정 (router fine-tuning). 이러한 구성 요소들은 중요도 추정 및 할당을 반복적으로 개선하는 점진적 양자화 (progressive quantization) 프레임워크에 통합됩니다. 실험을 통해 GEMQ가 정확도 저하를 최소화하면서 메모리를 크게 줄이고 추론을 가속화함을 입증하였습니다. 소스 코드는 https://github.com/jndeng/GEMQ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0