루프를 묶기(Tying the Loop) -- Mixture-of-Experts 언어 모델에서의 결합된 전문가 레이어 (Tied Expert
요약
MoE 아키텍처의 메모리 효율성을 높이기 위해 연속적인 트랜스포머 레이어 간에 전문가 파라미터를 공유하는 'Expert Tying' 방식을 제안합니다. 이 방식은 모델 성능 저하 없이 메모리 사용량을 최대 2배까지 절감할 수 있음을 입증했습니다.
핵심 포인트
- 레이어 간 전문가 파라미터를 공유하여 메모리 효율성 극대화
- 성능(Perplexity) 저하 없이 메모리 사용량 최대 2배 절감
- MoE 경로 내 파라미터 중복성을 활용한 최적의 트레이드오프 제공
- OLMoE, Qwen, DeepSeek 등 최신 아키텍처에서 효과 검증
Mixture-of-Experts (MoE) 아키텍처는 토큰당 전문가의 아주 작은 부분만을 활성화함으로써 대규모 언어 모델 (LLMs)을 효율적으로 확장하지만, 전문가 파라미터가 주를 이루는 전체 파라미터 수는 학습 및 추론 메모리에 유지되어야 합니다. 이를 해결하기 위해, 우리는 독립적인 레이어별 라우팅 (routing) 및 어텐션 (attention)을 유지하면서 연속적인 트랜스포머 (transformer) 레이어 간에 전문가 파라미터를 공유하는 아키텍처 수정 방식인 Expert Tying을 소개합니다. 우리는 OLMoE, Qwen3, 그리고 DeepSeek 스타일의 MoE를 포함한 일반적인 최첨단 아키텍처 전반에 걸쳐 이 접근 방식을 평가합니다. 우리의 사전 학습 (pretraining) 실험은 전문가를 결합(tying)함으로써 퍼플렉시티 (perplexity)나 다운스트림 품질의 저하가 거의 없이 메모리 사용량을 거의 2배까지 줄일 수 있음을 보여줍니다. MoE 경로에 내재된 파라미터 중복성을 활용함으로써, 우리의 방법은 매우 유리한 연산 대비 메모리 트레이드오프 (compute-to-memory trade-off)를 제공하며, 차세대 LLM의 효율적인 학습 및 확장을 발전시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기