
MoE-Mamba: Mixture of Experts를 활용한 효율적인 선택적 상태 공간 모델
요약
상태 공간 모델(SSM)인 Mamba에 Mixture of Experts(MoE) 구조를 결합한 MoE-Mamba를 제안합니다. 이 모델은 Transformer-MoE와 Mamba를 모두 능가하는 성능을 보이며, Transformer 대비 효율적인 학습 속도를 자랑합니다.
핵심 포인트
- SSM의 확장성을 위해 MoE 구조 결합 제안
- Mamba와 Transformer-MoE 모델 모두를 능가하는 성능
- Transformer 대비 훨씬 적은 학습 단계로 동일 성능 도달
- Mamba의 추론 성능 이점 유지
Computer Science > Machine Learning
Title: MoE-Mamba: Mixture of Experts를 활용한 효율적인 선택적 상태 공간 모델 (Efficient Selective State Space Models with Mixture of Experts)
View PDF HTML (experimental)Abstract: 상태 공간 모델 (State Space Models (SSMs))은 순차적 모델링 (sequential modeling) 분야에서 Transformers의 지배력에 도전하며 강력한 경쟁자로 부상했습니다. 동시에, Mixture of Experts (MoE)는 최근의 최첨단 오픈 모델들을 포함하여 Transformer 기반의 대규모 언어 모델 (Large Language Models)을 크게 개선해 왔습니다. 우리는 SSM의 확장성 (scaling) 잠재력을 끌어내기 위해 이를 MoE와 결합해야 한다고 제안합니다. 우리는 놀라운 성능을 달성한 최근의 SSM 기반 모델인 Mamba를 통해 이를 입증합니다. 우리의 모델인 MoE-Mamba는 Mamba와 베이스라인 Transformer-MoE 모두를 능가합니다. 특히, MoE-Mamba는 Transformer 대비 Mamba가 가진 추론 성능의 이점을 유지하면서도, $2.35 imes$ 더 적은 학습 단계(training steps)만으로 Mamba와 동일한 성능에 도달합니다.
Bibliographic and Citation Tools
Code, Data and Media Associated with this Article
Demos
Re recommender and Search Tools
arXivLabs: 커뮤니티 협력자와 함께하는 실험적 프로젝트
arXivLabs는 협력자들이 우리 웹사이트에서 직접 새로운 arXiv 기능을 개발하고 공유할 수 있도록 지원하는 프레임워크입니다.
arXivLabs와 함께 활동하는 개인 및 조직은 개방성, 커뮤니티, 탁월함, 그리고 사용자 데이터 프라이버시라는 우리의 가치를 수용하고 받아들였습니다. arXiv는 이러한 가치에 전념하고 있으며, 이를 준수하는 파트너와만 협력합니다.
arXiv 커뮤니티에 가치를 더할 프로젝트 아이디어가 있나요? arXivLabs에 대해 더 알아보기.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN AI Research의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기