본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 06. 05:17

애피니티만으로는 부족하다: Mixture-of-Experts 에서 자유 에너지 원리 회복

요약

기존의 Sparse Mixture-of-Experts (MoE) 라우팅은 도메인 전환(domain transitions) 지점에서 성능 저하를 보입니다. 본 연구는 Friston의 Free Energy Principle과 Spiking Neural Networks (SNNs)의 LIF 역학을 기반으로 세 가지 게이트 수정(시간적 기억, 정밀도 가중치, 선제적 라우팅)을 제안합니다. 이 메커니즘들은 특히 도메인 전환 시 올바른 전문가에게 확률 할당을 획기적으로 높여 MoE 모델의 견고성과 효율성을 크게 개선하며, 결합된 게이트는 구조적인 상호작용을 통해 가장 큰 성능 향상을 가져옵니다.

핵심 포인트

  • 표준 애피니티 라우팅은 도메인 전환 지점에서 전문가 할당에 취약하여 성능 저하를 겪습니다.
  • 제안된 세 가지 게이트(시간적 기억, 정밀도 가중치, 선제적 라우팅)는 SNN의 LIF 역학을 활용하여 MoE 모델의 라우팅 능력을 향상시킵니다.
  • 특히 '시간적 기억'과 '선제적 라우팅'을 결합한 게이트가 가장 큰 시너지 효과를 발휘하며, 이는 구조적인 상호작용에 기인합니다.
  • 이 개선된 MoE 모델은 도메인 전환 단계에서 올바른 전문가에게 훨씬 높은 확률을 할당하여 언어 모델의 견고성을 크게 높입니다.

Sparse MoE (Sparsely Activated Mixture of Experts) 라우팅은 도메인 전환 (domain transitions) 에서 실패합니다. 현재 토큰이 한 분포에 속하고 다음 토큰이 다른 분포에 속하는 상황입니다. 통제된 실험 (4 experts, 5 seeds) 에서 표준 애피니티 라우팅은 전환 지점에서 올바른 전문가에게만 0.006 +/- 0.001 의 확률을 할당합니다.

세 가지 경량 게이트 수정이 이를 0.748 +/- 0.002 로 높입니다 (124 배), 99% 커버리지를 위해 필요한 전문가 수를 불가능한 수준에서 작은 상수로 줄입니다:

  1. 시간적 기억 (temporal memory, beta): 토큰을 가로지르는 라우팅 컨텍스트를 누적하는 각 전문가별 LIF (Leaky Integrate-and-Fire) 막전위.
  2. 정밀도 가중치 게이트 (precision-weighted gating, Pi): 최근 예측 오차의 역분산인 각 전문가별 값으로, 신뢰할 수 있는 전문가와 신뢰할 수 없는 전문가 사이의 대비를 31 배로 높입니다.
  3. 선제적 라우팅 (anticipatory routing): beta-누적된 숨겨진 상태에 조건부화되는 다음 상태 예측자.

이 메커니즘은 Friston 의 Free Energy Principle 에서 유래하며, Spiking Neural Networks 의 LIF dynamics 를 사용합니다. 모든 2^3 부분 집합에 대한 ablation 실험을 통해 super-additive beta x Ant 상호작용을 발견했습니다: anticipation 만으로는 아무것도 주지 않습니다 (+0.000 +/- 0.001); beta 만으로는 modest gain 을 줍니다 (+0.295 +/- 0.013); 결합하면 oracle gap 의 75% 를 닫습니다 (+0.741 +/- 0.002, 합보다 +0.446 +/- 0.014 더 큽니다). 이는 구조적 (structural) 입니다: 상태 없는 예측자는 전환이 다가오는 것을 감지할 수 없기 때문입니다. 전이 토큰은 도메인 내 토큰과 분포적으로 동일합니다.

Character-level MoE LM (5 seeds) 에서 beta-routing 은 transition-step BPC 를 Standard 의 6.56 +/- 0.01 에서 beta-MoE 의 4.01 +/- 0.15 로 줄입니다. beta + Ant 게이트는 해당 도메인이 입력에 나타나는 전, 올바른 도메인 전문가에게 0.86 +/- 0.02 의 확률을 할당합니다 (Standard MoE 는 0.42 +/- 0.12). Reference implementations (~200 lines each): https://github.com/russellwmy/affinity-is-not-enough

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0