적응형 전문가 혼합 게이팅 (Adaptive Mixture of Experts Gate, AMG) [R]

요약

사전 학습된 고정 k-MoE 모델에 사후 적응형 게이팅(Post-hoc Adaptive MoE Gating)을 적용하여 토큰당 전문가 수를 가변적으로 조절하는 실험적 연구입니다. Qwen3.6-35B 모델을 대상으로 llama.cpp 환경에서 제로 게이팅 방식을 통해 실증적 벤치마킹을 수행했습니다.

핵심 포인트

고정 k 모델에 사후 임계값 게이팅 적용 시 유의미한 가변성 확보가 어려움
라우터 분포가 평탄하여 전문가 제거 시 실제 신호 손실이 발생함
GGML 정적 그래프 제약을 우회하기 위한 제로 게이팅(zero-gating) 방식 제안
추가 전문가(k12) 활용 시 임계값 게이팅이 미세한 성능 향상을 보일 수 있음

[프로젝트] Qwen3.6-35B에 대한 사후 적응형 MoE 게이팅 (Post-hoc Adaptive MoE Gating) — 오픈 리서치 공백에 대한 실증적 벤치마킹

적응형 MoE 라우팅(Adaptive MoE routing) — 라우팅 신뢰도(routing confidence)를 기반으로 토큰당 가변적인 수의 전문가(experts)를 선택하는 방식 — 은 여러 논문(XMoE 2024, DynMoE ICLR 2025, TopP routing Huang et al. 2024)에서 연구되어 왔습니다. 모든 성공적인 구현 사례들은 처음부터(from scratch) 학습을 진행했습니다. 하지만 사전 학습된 고정 k(fixed-k) 모델에 이를 사후(post-hoc) 적용했을 때의 실증적 결과(empirical results)를 프로덕션 규모에서 발표한 사례는 없습니다. 이것이 바로 그 실험입니다.

우리가 구축한 것
Qwen3.6-35B-A3B(레이어당 256개 전문가, k=8 고정)를 위해 llama.cpp에 적용할 추론 시간 패치(inference-time patch)를 제작했습니다. 이 패치는 정규화(normalisation) 이후 전문가 라우팅 가중치에 누적 확률 임계값 처리(cumulative probability thresholding)를 적용합니다. GGML 정적 그래프 제약으로 인해 진정한 의미의 동적 k를 구현할 수는 없으므로, 해결책으로 제로 게이팅(zero-gating)을 사용했습니다. 즉, 모든 k개의 FFN(Feed-Forward Network)이 계산을 수행하지만, 신뢰도가 낮은 전문가들은 0으로 처리(zeroed)되고 출력에서 재정규화(renormalised)되어 제외됩니다. 임계값(Threshold), 최소 k(min_k), 최대 k(max_k) 상한은 환경 변수(env vars)를 통해 런타임에 구성할 수 있습니다.

결과 (PTB에서의 PPL, 192 chunks, ctx=512)

설정 | PPL ±σ | 평균 활성 전문가

k8 baseline | 11.3277 ±0.143 | 8.00/8
k8 + threshold 0.75 | 12.1226 ±0.155 | 5.42/8
k12 no gating | 11.3379 ±0.144 | 12.00/12
k12 + threshold 0.90 | 11.2925 ±0.143 | 10.31/12

주요 실증적 발견
고정 k로 학습된 모델에 사후 임계값 게이팅(Post-hoc threshold gating)을 적용하면 품질 저하 없이 의미 있는 토큰당 가변성을 만들어낼 수 없습니다. norm_w 이후 라우터의 분포는 구조적으로 평탄(flat)합니다. k=8로 고정하여 학습하면 [0.16, 0.14, 0.13, 0.12, 0.12, 0.11, 0.11, 0.11]과 같은 분포가 생성됩니다. 임계값이 파고들 만한 뾰족한 부분(peaked)이 전혀 없습니다. 전문가 수를 8개에서 5.4개로 줄이는 것은 출력의 각각 11~13%를 기여하는 전문가들을 제거하는 것이며, 이는 노이즈가 아니라 실제 신호 손실(signal loss)입니다.

k12 + 0.90 결과(PPL 11.2925, 베이스라인보다 약간 낮음)가 흥미로운 이유는 모델이 한 번도 사용하도록 학습되지 않은 4개의 전문가를 사용했기 때문입니다. 0.90 설정의 AMG는 학습되지 않은 이 추가 전문가들 중 가장 약한 1~2개를 제거하여 약간 더 깨끗한 신호를 남깁니다.

±0.143의 오차 범위 내에서는 이것이 실제 효과인지 노이즈인지 모호하지만, 방향성은 일관됩니다.

진정으로 새로운 점
생산용 추론 엔진 (production inference engine)에서 적응형 게이팅 (adaptive gating)을 위한 작동 가능한 ggml_map_custom1 콜백 (callback)을 설명하는 발표된 연구는 없습니다. 정적 GGML 그래프를 위한 제로 게이팅 (zero-gating) 우회 방식은 실용적인 기여입니다. 사후 AMG (post-hoc AMG)가 고정된 k-모델 (fixed-k models)에서 왜 제한적인지에 대한 경험적 정량화는 기존 논문들이 다루지 못한 공백을 메워줍니다. 기존 논문들은 모두 처음부터 학습(train from scratch)을 진행하며, 기존의 평탄한 분포 라우터 (flat-distribution router)에 적응형 게이팅을 적용할 때 발생하는 성능 저하 곡선 (degradation curve)을 측정하지 않습니다.

미해결 과제
진정한 토큰별 가변성 (per-token variability)으로 가는 경로는 엔트로피 정규화 (entropy regularization)를 사용한 라우터 미세 조정 (router fine-tuning) (L = L_LM + λ_entropy H(router) + λ_balance KL(usage, uniform))이며, 모든 전문가 FFN 가중치를 고정한 상태에서 21M개의 게이트 가중치 파라미터만을 대상으로 합니다. 이를 위한 학습 파이프라인 (training pipeline)이 포함되어 있습니다. 하드웨어 요구 사항은 약 20GB VRAM이며, 현재 16GB A5000 환경에서는 차단된 상태입니다. 혹시 이를 실행해보고 싶은 분이 있다면 스크립트는 준비되어 있으며, 결과가 매우 궁금합니다.

GitHub: https://github.com/cjhudlin/Adaptive-MoE-Gate-AMG-for-Qwen3.6-35B
전체 방법론, 원본 퍼플렉시티 (perplexity) 로그, 패치 스크립트 및 라우터 학습 파이프라인이 포함되어 있습니다.
/u/cjhudlin 에 의해 r/MachineLearning 에 제출됨
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

적응형 전문가 혼합 게이팅 (Adaptive Mixture of Experts Gate, AMG) [R]

요약

핵심 포인트

댓글