초소형 규모에서의 Dense vs Sparse 사전 학습: Active-Parameter vs Total-Parameter 매칭
요약
본 연구는 초소형 규모에서 Dense Transformer와 Mixture-of-Experts (MoE)를 비교하며, 파라미터 예산 설정 방식에 따른 성능 차이를 분석했습니다. 특히 활성 파라미터(active parameter) 매칭 조건에서는 MoE가 더 낮은 검증 손실을 달성하여 우위를 보였으나, 전체 파라미터(total parameter) 매칭 조건에서는 Dense 모델이 여전히 경쟁력을 유지하는 것으로 나타났습니다. 이는 초소형 환경에서 MoE의 이점이 활성 파라미터에 국한되며, 저장 용량 측면에서는 Dense 학습을 능가하기 어렵다는 것을 시사합니다.
핵심 포인트
- 초소형 규모 사전 학습 환경에서 Dense와 MoE 모델의 성능 비교를 수행함.
- 활성 파라미터(active parameter) 매칭 조건 하에서 MoE는 낮은 검증 손실을 달성하며 우위를 보임.
- 전체 파라미터(total parameter) 매칭 조건에서는 Dense 모델이 여전히 경쟁력을 유지하는 것으로 나타남.
- 초소형 환경에서는 MoE의 이점이 활성 파라미터에 국한되며, 전체 저장 용량 측면에서 Dense 학습을 능가하기 어려움.
우리는 공유된 LLaMA 스타일의 디코더 학습 레시피(training recipe) 하에서 초소형 규모(tiny-scale)의 사전 학습(pretraining) 환경을 통해 Dense 및 Mixture-of-Experts (MoE) Transformer를 연구합니다. Sparse 모델은 Dense 피드포워드 블록을 Mixtral 스타일의 라우팅된 전문가(routed experts)로 대체합니다. Dense 베이스라인은 토크나이저(tokenizer), 데이터, 옵티마이저(optimizer), 스케줄(schedule), 깊이(depth), 컨텍스트 길이(context length), 정규화 스타일(normalization style) 및 평가 프로토콜(evaluation protocol)을 고정하는 동안, 활성 파라미터(active parameter) 또는 전체 파라미터(total parameter) 예산에 엄격하게 맞추기 위해 너비(width)를 적절히 조정하였습니다. 우리의 최적의 Sparse 레시피는 4개의 전문가, top-2 라우팅, Switch 스타일의 부하 분산(load balancing), 그리고 라우터 z-loss를 사용합니다. 3개의 시드(seed)를 사용한 전체 데이터 비교에서, Dense active-match 모델은 1.6545 +/- 0.0012의 최적 검증 손실(validation loss)에 도달했고, MoE는 1.5788 +/- 0.0020에 도달했으며, Dense total-match 모델은 1.5608 +/- 0.0025에 도달했습니다. 이는 MoE 측에 0.0758 +/- 0.0021의 matched-active 격차를, Dense 모델 측에 0.0180 +/- 0.0020의 matched-total 격차를 발생시킵니다. 학습이 진행됨에 따라 matched-active의 이점은 커지는 반면, matched-total Dense의 이점은 급격히 좁아집니다. 따라서 이 25M 미만 파라미터 환경에서 MoE는 활성 파라미터 매칭(active-parameter matching) 하에서는 검증 손실을 개선하지만, 동일한 전체 저장 용량(total stored capacity)에서는 Dense 학습을 능가하지 못합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기