arXiv논문2026. 04. 29. 12:55

Marco-MoE: 효율적인 업사이클링을 갖춘 오픈 멀티링구얼 미식스 오브 전문가 언어 모델

요약

Marco-MoE는 완전히 오픈된 다국어 희소 Mixture of Experts (MoE) 언어 모델로, 입력 토큰당 전체 파라미터의 약 5%만 활성화되는 극도로 희소한 구조를 가집니다. 이러한 효율적인 희소성과 업사이클링 능력을 결합하여 대규모 데이터셋에 대한 사전 학습을 가능하게 하며, 경쟁 모델 대비 뛰어난 성능-연산비(performance-to-compute ratio)를 달성합니다. 또한, Marco-MoE-Instruct 변형은 추가 학습을 통해 생성되었으며, 활성화된 파라미터가 더 많은 경쟁 모델보다 우수한 성능을 보여줍니다. 이 모델은 언어 간 공유 구조와 개별 언어 전문성을 동시에 유지하며 확장 가능한 다국어 기능을 제공합니다.

핵심 포인트

Marco-MoE는 완전히 오픈된 다국어 희소 MoE(Mixture of Experts) 아키텍처를 채택했습니다.
입력 토큰당 전체 파라미터의 약 5%만 활성화되는 극단적인 희소성을 특징으로 하여 효율적인 학습을 가능하게 합니다.
경쟁 모델 대비 최상의 성능-연산비(performance-to-compute ratio)를 달성하며, 다국어 및 언어 확장성이 뛰어납니다.
Marco-MoE-Instruct 변형은 추가 학습을 통해 생성되었으며, 활성화된 파라미터가 더 많은 경쟁 모델보다 우수한 성능을 입증했습니다.
학습 데이터셋, 레시피, 모델 가중치를 모두 공개하여 커뮤니티의 활용을 지원합니다.

우리는 Marco-MoE 를 소개합니다. 이는 완전히 오픈된 다국어 희소 미식스 오브 전문가 (MoE) 모델 일련입니다. Marco-MoE 는 입력 토큰당 전체 파라미터의 약 5% 만 활성화되는 매우 희소한 구조를 특징으로 합니다. 이러한 극단적인 희소성과 밀집형 모델에서의 업사이클링(upcycling) 이 결합됨으로써 5T 토큰에 대한 효율적인 사전 학습(pre-training) 을 가능하게 합니다. 우리의 모델은 영어와 다국어 벤치마크에서 유사한 크기의 경쟁 모델보다 뛰어난 성능을 보이며, 최상의 성능 대 연산비 (performance-to-compute ratio) 를 달성합니다. 우리는 또한 이러한 모델을 추가 학습(post-train) 하여 Marco-MoE- extsc{Instruct} 변형을 생성했는데, 이는 활성화된 파라미터가 $3$--$14 imes$ 더 많은 경쟁 모델보다 뛰어난 성능을 보입니다. 우리의 분석은 Marco-MoE 가 관련 언어 간에 공유되는 구조화된 전문가 활성화 패턴을 학습하면서도 언어적으로 고립된 언어에는 매우 전문적인 활용을 유지함을 보여줍니다. 우리는 또한 Marco-MoE 가 밀집형 모델에서 일반적으로 발생하는 간섭 없이 확장 가능한 언어 확장을 가능하게 함을 추가로 증명합니다. 커뮤니티를 지원하기 위해 우리는 전체 학습 데이터셋, 레시피 (recipe), 및 모델 가중치를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Marco-MoE: 효율적인 업사이클링을 갖춘 오픈 멀티링구얼 미식스 오브 전문가 언어 모델

요약

핵심 포인트

댓글