
Manifold Power Iteration을 사용한 MoE 라우터 재설계
요약
본 논문은 Manifold Power Iteration(MPI)을 활용하여 MoE 라우터 가중치를 재설계했습니다. 이 방법은 라우터 가중치가 각 전문가의 최고 특이 방향에 정렬되도록 하여, 전문가 친화도를 더욱 정확하게 반영합니다. 그 결과, 1B에서 11B 매개변수까지 사전 학습 속도가 향상되고 다운스트림 성능도 개선되었습니다.
핵심 포인트
- Manifold Power Iteration(MPI)을 MoE 라우터에 적용하여 가중치를 재설계함.
- 라우터 가중치가 전문가의 최고 특이 방향에 정렬되어 친화도를 높임.
- 1B~11B 매개변수 규모에서 사전 학습 속도 향상 및 성능 개선 효과를 입증함.
라우터 가중치가 각 전문가(expert)의 최고 특이 방향(top singular direction)에 정렬되어, 전문가 친화도(expert affinity)를 더 잘 반영합니다.
이를 통해 1B에서 11B 매개변수까지 사전 학습 속도가 1.04배 향상되었으며, 다운스트림 결과가 더욱 강력해졌습니다.
논문:
https://paperswithcode.co/paper/2606.123
97
…
코드:
https://github.com/ericshwu/Router-with-Manifold-Power-Iteration
…
MoE 학습에 MPI를 적용해보고 Hugging Face에 체크포인트를 공유하세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기