본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 12:44

UniPool: 혼합 전문가(Mixture-of-Experts)를 위한 전역 공유 전문가 풀

요약

UniPool은 기존의 계층별(per-layer) 전문가 할당 방식에 의존하는 Mixture-of-Experts (MoE) 아키텍처의 한계를 극복하기 위해 제안된 새로운 MoE 구조입니다. 이 모델은 모든 레이어가 독립적인 전문가 세트를 소유하는 대신, 전체 시스템이 공유하는 단일 글로벌 전문가 풀(UniPool)을 사용합니다. 이를 통해 전문가 용량을 전역적 예산으로 취급함으로써, 깊이 증가에 따라 전문가 파라미터가 선형적으로 증가할 필요 없이 효율적이면서도 높은 성능을 유지할 수 있음을 입증했습니다.

핵심 포인트

  • 기존 MoE는 각 레이어가 독립적인 전문가 세트를 소유하는 방식(per-layer expert ownership)을 사용하지만, UniPool은 이를 단일 공유 풀(global shared pool)로 대체합니다.
  • UniPool은 전역적 전문가 예산 관리를 통해 모델의 깊이 증가에 따른 전문가 파라미터의 선형적 성장을 방지하고 효율성을 높입니다.
  • 공유 풀 설계를 통해, 적은 비율의 전문가 파라미터(41.6%-66.7%)만으로도 기존 MoE와 동등하거나 더 나은 성능을 달성할 수 있음을 보여줍니다.
  • 안정적인 학습과 균형 잡힌 활용을 위해 풀 레벨 보조 손실(pool-level auxiliary loss) 및 NormRouter를 도입했습니다.

현대의 혼합 전문가(Mixture-of-Experts, MoE) 아키텍처는 각 계층마다 별도의 전문가 세트를 할당하는 경직된 계층별 규칙을 통해 전문가 용량을 배분합니다. 이 관행은 깊이 스케일링(depth scaling)과 선형적인 전문가 매개변수 증가를 결합하며, 모든 계층이 고립된 전문가 용량을 필요로 한다고 가정합니다. 그러나 최근 분석과 저희의 라우팅 프로브(routing probe)는 이러한 할당 규칙에 이의를 제기합니다: 더 깊은 계층의 학습된 top-k 라우터(router)를 균일한 랜덤 라우팅으로 대체했을 때, 여러 상용 MoE 모델에서 다운스트림 정확도(downstream accuracy)가 단지 1.0~1.6 포인트만 떨어지는 것으로 나타났습니다. 이러한 중복성(redundancy)에 착안하여, 저희는 UniPool을 제안합니다. UniPool은 전문가 용량을 전역적인 아키텍처 예산(global architectural budget)으로 취급하며, 계층별 전문가 소유권(per-layer expert ownership) 대신 독립적인 계층별 라우터가 접근하는 단일 공유 풀(single shared pool)로 대체하는 MoE 아키텍처입니다. 공유 환경에서 안정적이고 균형 잡힌 학습을 가능하게 하기 위해, 저희는 전체 풀에 걸쳐 전문가 활용도를 균형 있게 맞추는 풀 레벨 보조 손실(pool-level auxiliary loss)을 도입하고, 희소하며 스케일 변화에도 안정적인 라우팅을 공유 전문가 풀로 제공하는 NormRouter를 채택합니다. Pile에서 30B 토큰으로 학습된 다섯 가지 LLaMA 아키텍처 모델 규모(182M, 469M, 650M, 830M, 및 978M 매개변수)에 걸쳐, UniPool은 일관되게 매칭되는 바닐라 MoE 기준선보다 검증 손실(validation loss)과 퍼플렉서티(perplexity)를 개선합니다. 이러한 규모 전반에 걸쳐, UniPool은 바닐라 MoE 대비 최대 0.0386만큼 검증 손실을 줄입니다. 단순한 손실 개선 외에도, 저희의 결과는 풀 크기를 명시적인 깊이 스케일링 하이퍼파라미터(depth-scaling hyperparameter)로 식별합니다: 바닐라 전문가 매개변수 예산의 41.6%~66.7%만을 사용하는 리듀스-풀 UniPool 변형 모델은 테스트된 규모에서 계층별 MoE와 동등하거나 더 나은 성능을 보입니다. 이는 공유 풀 설계 하에서는 전문가 매개변수가 깊이에 선형적으로 증가할 필요가 없으며, 바닐라 MoE보다 더욱 효율적이고 효과적인 방식으로 준선형적(sublinearly)으로 성장할 수 있음을 보여줍니다. 추가 분석에 따르면, UniPool의 이점은 더 세밀한 전문가 분해(finer-grained expert decomposition)와 결합됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0