arXiv논문2026. 06. 04. 13:21

AlphaQ: Mixture-of-Experts 양자화를 위한 보정 불필요 비트 할당 방식

요약

AlphaQ는 보정 데이터 없이 MoE 모델의 전문가별 비트 너비를 할당하는 새로운 양자화 방식을 제안합니다. HT-SR 이론을 활용해 가중치 스펙트럼의 무거운 꼬리 특성을 측정함으로써, 데이터 접근이 어려운 상황에서도 최적의 메모리 효율과 정확도를 달성합니다.

핵심 포인트

보정 데이터 없이 전문가별 비트 할당 가능
HT-SR 이론 기반의 가중치 스펙트럼 분석 활용
Qwen1.5-MoE에서 4배 이상의 메모리 압축 달성
낮은 평균 정밀도에서도 전정밀도 수준의 정확도 유지

Mixture-of-Experts (MoE) 아키텍처는 희소 전문가 활성화 (sparse expert activation)를 통해 모델 용량을 확장하지만, 모든 전문가 가중치 (expert weights)가 메모리에 상주해야 하기 때문에 배포 시 여전히 메모리 제한 (memory-bound) 문제를 겪습니다. 혼합 정밀도 양자화 (Mixed-precision quantization)는 서로 다른 전문가에게 서로 다른 비트 너비 (bit-widths)를 할당함으로써 이러한 메모리 점유를 크게 줄일 수 있습니다. 그러나 기존 방식들은 일반적으로 전문가의 중요도를 추정하고 비트 할당을 결정하기 위해 보정 데이터 (calibration data)에 의존합니다. 최첨단 MoE LLM의 경우, 원래의 학습 데이터, 즉 실제 학습 분포 (training distribution)는 독점적이며 접근이 불가능합니다. 결과적으로 보정 세트 (calibration sets)는 필연적으로 불완전한 대리물 (surrogates)이 될 수밖에 없으며, 이는 전문가 활용도를 잘못 추정하여 최적화되지 않은 비트 할당으로 이어질 수 있습니다. 현대 MoE 모델에서 관찰되는 상당한 전문가 간 품질 가변성 (cross-expert quality variability)과, 학습 또는 테스트 데이터에 접근하지 않고도 신경망 모델 품질을 예측하는 Heavy-Tailed Self-Regularization (HT-SR) 이론의 성공에 착안하여, 우리는 MoE 양자화를 위한 보정 불필요 (calibration-free) 비트 할당 방법인 AlphaQ를 제안합니다. AlphaQ는 HT-SR 이론을 활용하며 다음과 같은 간단한 원칙을 따릅니다: 더 무거운 꼬리 형태의 가중치 스펙트럼 (heavy-tailed weight spectra)을 가진 전문가는 일반적으로 더 잘 학습되었으므로 더 높은 비트 너비를 할당받아야 하며, 무거운 꼬리 구조가 약한 전문가는 더 공격적으로 양자화될 수 있습니다. AlphaQ는 전문가별 스펙트럼의 무거운 꼬리 특성 (spectral heavy-tailedness)을 측정하고, 전역 비트 예산 제약 (global bit-budget constraint) 하에서 총 양자화 오차를 최소화하는 예산 제약 최적화 문제 (budget-constrained optimization problem)를 해결함으로써 이 원칙을 실행합니다. 여러 MoE 모델에 대해 AlphaQ는 동일한 비트 예산 조건에서 보정 기반 베이스라인 (calibration-based baselines)보다 일관되게 우수한 성능을 보입니다. 특히 Qwen1.5-MoE에서 AlphaQ는 평균 전문가 정밀도가 단 3.5비트에 불과함에도 불구하고 전정밀도 (full-precision)에 가까운 정확도를 달성하는 동시에 4배 이상의 메모리 압축을 제공합니다. 우리의 코드는 https://github.com/Superone77/AlphaQ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

AlphaQ: Mixture-of-Experts 양자화를 위한 보정 불필요 비트 할당 방식

요약

핵심 포인트

댓글