본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 11. 21:25

Manifold Power Iteration을 사용한 MoE 라우터 재설계

요약

본 논문은 Manifold Power Iteration(MPI)을 활용하여 MoE 라우터 가중치를 재설계했습니다. 이 방법은 라우터 가중치가 각 전문가의 최고 특이 방향에 정렬되도록 하여, 전문가 친화도를 더욱 정확하게 반영합니다. 그 결과, 1B에서 11B 매개변수까지 사전 학습 속도가 향상되고 다운스트림 성능도 개선되었습니다.

핵심 포인트

  • Manifold Power Iteration(MPI)을 MoE 라우터에 적용하여 가중치를 재설계함.
  • 라우터 가중치가 전문가의 최고 특이 방향에 정렬되어 친화도를 높임.
  • 1B~11B 매개변수 규모에서 사전 학습 속도 향상 및 성능 개선 효과를 입증함.

라우터 가중치가 각 전문가(expert)의 최고 특이 방향(top singular direction)에 정렬되어, 전문가 친화도(expert affinity)를 더 잘 반영합니다.

이를 통해 1B에서 11B 매개변수까지 사전 학습 속도가 1.04배 향상되었으며, 다운스트림 결과가 더욱 강력해졌습니다.

논문:
https://paperswithcode.co/paper/2606.123
97

코드:
https://github.com/ericshwu/Router-with-Manifold-Power-Iteration

MoE 학습에 MPI를 적용해보고 Hugging Face에 체크포인트를 공유하세요.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0