arXiv논문2026. 06. 11. 12:20

다양체 전력 반복을 이용한 Mixture-of-Experts 라우터 재설계

요약

본 논문은 Mixture-of-Experts (MoE) 모델의 핵심 구성 요소인 라우터(Router)를 재설계하는 방법을 제안합니다. 기존 방식의 한계를 극복하기 위해, 각 라우터 행을 해당 전문가의 주 성분 방향과 정렬시키는 것이 목표입니다. 이를 위해 Manifold Power Iteration (MPI)이라는 새로운 패러다임을 도입하여 MoE 모델의 성능 향상을 입증했습니다.

핵심 포인트

MoE 모델에서 라우터는 어떤 전문가를 활성화할지 결정하는 핵심 요소이다.
라우터 행을 전문가의 주 성분 방향과 정렬시키는 것이 목표다.
Manifold Power Iteration (MPI)은 전력 반복 후 노름 제약 수축 과정을 거친다.
이 방법론은 1B~11B 파라미터 규모 MoE 모델에서 성능 향상을 보였다.

라우터는 Mixture-of-Experts (MoE) 모델의 핵심 구성 요소입니다. 전문가(expert)를 대신하는 역할을 하며, 라우터 행들은 MoE 입력과의 유사도를 계산하여 어떤 하위 집합의 전문가가 활성화될지 결정합니다. 이상적으로 각 라우터 행은 해당 전문가 행렬을 대표 벡터로 인코딩하도록 설계되어야 하며, 이를 통해 토큰과의 내적(dot-product)이 토큰-전문가 친화도(token-expert affinity)를 더 잘 반영할 수 있습니다. 하지만 이러한 응축(condensation)을 강제하는 디자인 원칙은 존재하지 않습니다. 본 논문에서는 각 라우터 행을 해당 전문가의 주 성분 방향(principal singular direction)과 정렬시키자고 제안합니다. 왜냐하면 이 방향이 행렬에 대한 가장 표현력이 풍부한 수학적 설명을 제공하기 때문입니다. 이러한 원리에 기반하여, 우리는 Manifold Power Iteration (MPI)을 사용한 라우터 재설계를 제안합니다. 구체적으로, MPI는 '전력 계산 후 수축(Power-then-Retract)' 패러다임을 도입하는데, 이 과정에서 라우터 가중치에 대해 전력 반복 단계가 수행된 다음, 효율성과 안정성을 보장하기 위해 노름 제약(norm constraint)을 부과하는 수축이 뒤따릅니다. 이론적으로, 우리는 MPI가 라우터 행들을 해당 전문가의 주 성분 방향으로 수렴하게 함을 보여줍니다. 경험적으로는, 1B부터 11B 파라미터 규모까지 MoE 모델을 사전 학습시켜 이러한 정렬이 더 효과적인 MoE 모델을 촉진함을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

다양체 전력 반복을 이용한 Mixture-of-Experts 라우터 재설계

요약

핵심 포인트

댓글