Mixture-of-Experts를 위한 신뢰도 적응형 SwiGLU
요약
MoE 모델의 성능 향상을 위해 토큰별 라우팅 신뢰도에 따라 게이트 날카로움을 조절하는 $\kappa$-SwiGLU를 제안합니다. 실험 결과, 추가 파라미터와 계산 비용을 최소화하면서도 MoE Transformer의 성능을 효과적으로 개선했습니다.
핵심 포인트
- 라우터 로짓에 따라 게이트 날카로움을 조정하는 $\kappa$-SwiGLU 제안
- 매끄러운 활성화와 선택적 활성화 사이의 유연한 보간 가능
- 최소한의 계산 오버헤드로 MoE 모델의 CORE 성능 향상 입증
- FineWeb-Edu 데이터셋 기반의 다양한 MoE 레이어 실험 완료
SwiGLU는 현대 Transformer MLP (Multi-Layer Perceptrons)에서 표준적인 게이트 활성화 함수 (gated activation)가 되었으나, 게이트의 날카로움(sharpness) — 즉, 게이팅 함수 (gating function)의 매끄러움과 선택성 — 은 일반적으로 훈련 과정 내내 고정되어 있습니다. 본 연구에서는 토큰 수준의 라우팅 신뢰도 (routing confidence)에 따라 전문가 게이트의 날카로움을 조정하는 Mixture-of-Experts (MoE) 모델용 SwiGLU 변형인 Confidence-Aware SwiGLU ($κ$-SwiGLU)를 제안합니다. 구체적으로, $κ$-SwiGLU는 SiLU 게이트 날카로움 계수를 라우터 로짓 (router logit)의 학습 가능한 함수로 매개변수화하여, 각 전문가 게이트 유닛이 매끄럽고 광범위하게 활성화되는 게이팅과 날카롭고 선택적인 게이팅 사이를 보간 (interpolate)할 수 있도록 합니다. 우리는 8개에서 28개 레이어에 이르는 MoE Transformer 모델들에 대해 FineWeb-Edu 데이터셋을 사용하여 $κ$-SwiGLU를 평가합니다. 이러한 설정 전반에서 $κ$-SwiGLU는 무시할 만한 수준의 파라미터를 추가하고 아주 적은 계산 오버헤드만을 발생시키면서 평균 CORE 성능을 향상시켰으며, 이는 신뢰도 인식 게이트 날카로움 (confidence-aware gate sharpness)이 MoE MLP를 개선하기 위한 유망한 메커니즘임을 입증합니다. 코드는 https://github.com/askerlee/kappa-swiglu 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기