X요약2026. 06. 11. 21:25

Manifold Power Iteration을 사용한 MoE 라우터 재설계

요약

본 논문은 Manifold Power Iteration(MPI)을 활용하여 MoE 라우터 가중치를 재설계했습니다. 이 방법은 라우터 가중치가 각 전문가의 최고 특이 방향에 정렬되도록 하여, 전문가 친화도를 더욱 정확하게 반영합니다. 그 결과, 1B에서 11B 매개변수까지 사전 학습 속도가 향상되고 다운스트림 성능도 개선되었습니다.

핵심 포인트

Manifold Power Iteration(MPI)을 MoE 라우터에 적용하여 가중치를 재설계함.
라우터 가중치가 전문가의 최고 특이 방향에 정렬되어 친화도를 높임.
1B~11B 매개변수 규모에서 사전 학습 속도 향상 및 성능 개선 효과를 입증함.

라우터 가중치가 각 전문가(expert)의 최고 특이 방향(top singular direction)에 정렬되어, 전문가 친화도(expert affinity)를 더 잘 반영합니다.

이를 통해 1B에서 11B 매개변수까지 사전 학습 속도가 1.04배 향상되었으며, 다운스트림 결과가 더욱 강력해졌습니다.

논문:
https://paperswithcode.co/paper/2606.123
97
…
코드:
https://github.com/ericshwu/Router-with-Manifold-Power-Iteration
…
MoE 학습에 MPI를 적용해보고 Hugging Face에 체크포인트를 공유하세요.

AI 자동 생성 콘텐츠

원문 바로가기

Manifold Power Iteration을 사용한 MoE 라우터 재설계

요약

핵심 포인트

댓글