다양체 전력 반복을 이용한 Mixture-of-Experts 라우터 재설계
요약
본 논문은 Mixture-of-Experts (MoE) 모델의 핵심 구성 요소인 라우터(Router)를 재설계하는 방법을 제안합니다. 기존 방식의 한계를 극복하기 위해, 각 라우터 행을 해당 전문가의 주 성분 방향과 정렬시키는 것이 목표입니다. 이를 위해 Manifold Power Iteration (MPI)이라는 새로운 패러다임을 도입하여 MoE 모델의 성능 향상을 입증했습니다.
핵심 포인트
- MoE 모델에서 라우터는 어떤 전문가를 활성화할지 결정하는 핵심 요소이다.
- 라우터 행을 전문가의 주 성분 방향과 정렬시키는 것이 목표다.
- Manifold Power Iteration (MPI)은 전력 반복 후 노름 제약 수축 과정을 거친다.
- 이 방법론은 1B~11B 파라미터 규모 MoE 모델에서 성능 향상을 보였다.
라우터는 Mixture-of-Experts (MoE) 모델의 핵심 구성 요소입니다. 전문가(expert)를 대신하는 역할을 하며, 라우터 행들은 MoE 입력과의 유사도를 계산하여 어떤 하위 집합의 전문가가 활성화될지 결정합니다. 이상적으로 각 라우터 행은 해당 전문가 행렬을 대표 벡터로 인코딩하도록 설계되어야 하며, 이를 통해 토큰과의 내적(dot-product)이 토큰-전문가 친화도(token-expert affinity)를 더 잘 반영할 수 있습니다. 하지만 이러한 응축(condensation)을 강제하는 디자인 원칙은 존재하지 않습니다. 본 논문에서는 각 라우터 행을 해당 전문가의 주 성분 방향(principal singular direction)과 정렬시키자고 제안합니다. 왜냐하면 이 방향이 행렬에 대한 가장 표현력이 풍부한 수학적 설명을 제공하기 때문입니다. 이러한 원리에 기반하여, 우리는 Manifold Power Iteration (MPI)을 사용한 라우터 재설계를 제안합니다. 구체적으로, MPI는 '전력 계산 후 수축(Power-then-Retract)' 패러다임을 도입하는데, 이 과정에서 라우터 가중치에 대해 전력 반복 단계가 수행된 다음, 효율성과 안정성을 보장하기 위해 노름 제약(norm constraint)을 부과하는 수축이 뒤따릅니다. 이론적으로, 우리는 MPI가 라우터 행들을 해당 전문가의 주 성분 방향으로 수렴하게 함을 보여줍니다. 경험적으로는, 1B부터 11B 파라미터 규모까지 MoE 모델을 사전 학습시켜 이러한 정렬이 더 효과적인 MoE 모델을 촉진함을 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기