arXiv논문2026. 05. 08. 22:32

EMO: Pretraining Mixture of Experts for Emergent Modularity

요약

EMO(Expert Modularity Optimization)는 기존 MoE(Mixture-of-Experts) 모델이 가진 도메인 특화 및 메모리 효율성 문제를 해결하기 위해 제안된 모듈러 아키텍처입니다. EMO의 핵심은 유사한 도메인의 토큰들이 유사한 전문가 그룹에 의존하도록 유도하여, 문서 경계만으로도 자연스럽게 전문화되고 조립 가능한 전문가 풀을 형성하는 것입니다. 이를 통해 전체 모델 크기 대비 적은 활성 전문가만을 사용하여 높은 성능과 뛰어난 메모리 효율성을 달성할 수 있습니다.

핵심 포인트

EMO는 기존 MoE의 도메인 특화 및 메모리 제약 문제를 해결하는 모듈러 아키텍처이다.
유사한 도메인의 토큰들이 유사한 전문가 그룹에 의존하도록 유도하여, 문서 경계만으로 전문적인 전문가 풀을 형성한다.
전문가 사용이 선택적(selective)이 가능하여, 전체 전문가의 일부만 유지해도 성능 저하가 매우 적다 (예: 25% 유지 시 손실 < 3%).
EMO의 전문가들은 도메인 수준(예: 수학, 코드)에서 전문성을 가지며, 이는 표준 MoE와 차별화된다.
이 아키텍처는 대규모 희소 모델의 메모리 효율적이고 모듈러한 배포 경로를 제시한다.

대규모 언어 모델은 일반적으로 모놀리식 시스템으로 배포되며, 응용 프로그램이 좁은 기능 subset(예: 코드, 수학, 도메인별 지식) 만 필요할지라도 전체 모델을 요구합니다. Mixture-of-Experts (MoE) 는 입력마다 전문가 subset 을 활성화함으로써 잠재적 대안을 제공해 보이지만, 실제에서는 특정 도메인에 대해 전문가 subset 에만 추론을 제한하면 심각한 성능 저하가 발생합니다. 이는 메모리 제약 환경에서의 실용성을 제한하며, 모델이 더 크고 희소해질수록 더욱 그러합니다. 우리는 EMO 를 소개합니다. EMO 는 모놀리식 시스템과 달리, 인간 정의된 사전지식을 요구하지 않고 전문가 subset 의 독립적 사용 및 조립을 위한 모듈러성을 지향하는 MoE 입니다. 우리의 핵심 아이디어는 유사한 도메인의 토큰이 유사한 전문가를 의존하도록 유도하는 것입니다. 문서 내의 토큰은 종종 동일한 도메인을 공유하므로, EMO 는 이를 하나의 공유 풀에서 선택할 전문가로 제한하고, 다른 문서는 다른 풀을 사용할 수 있게 합니다. 이 단순한 제약 조건은 문서 경계만으로도 사전 학습 중에 일관된 전문가 그룹이 자연스럽게 나타나는 것을 가능하게 합니다. 우리는 1T 토큰으로 1B-active, 14B-total EMO 를 사전 학습했습니다. 전체 모델로서는 표준 MoE 성능과 일치합니다. 특히 선택적 전문가 사용이 가능하여, 전문가의 25% (12.5%) 만 유지하더라도 절대적 손실은 1% (3%) 로 매우 작습니다. 반면 표준 MoE 는 같은 설정에서 붕괴합니다. 또한 우리는 EMO 의 전문가 subset 이 도메인 수준 (예: 수학 또는 코드) 에서 전문성을 가지며, 이는 표준 MoE 에서 관찰되는 저수준 문법적 전문성과 대조적입니다. 종합적으로, 우리의 결과는 대규모 희소 모델의 모듈러하고 메모리 효율적인 배포 경로를 보여주고, 조립 가능한 아키텍처를 위한 새로운 기회를 엽니다.

AI 자동 생성 콘텐츠

원문 바로가기

EMO: Pretraining Mixture of Experts for Emergent Modularity

요약

핵심 포인트

댓글