arXiv논문2026. 06. 16. 11:44

One-Shot MoE 전문가 프루닝을 위한 전문가 점수 산정 방법: 통합 공식 및 선택 원칙

요약

MoE 모델의 메모리 효율을 높이기 위한 One-Shot 전문가 프루닝을 위해 라우팅 빈도, 게이트 가중치, 활성화 강도를 통합한 새로운 공식을 제안합니다. 실험 결과, 제안된 MAN 및 MSAN 기준이 태스크 불가지론적 설정에서 기존 방식보다 뛰어난 성능을 입증했습니다.

핵심 포인트

MoE 모델 배포 시 메모리 절감을 위한 One-Shot 프루닝 연구
라우팅 빈도, 게이트 가중치, 활성화 강도를 결합한 통합 공식 제안
태스크 불가지론적 환경에 최적화된 MAN 및 MSAN 기준 제시
기존 베이스라인 대비 최대 8.8포인트 성능 향상 확인

Mixture-of-Experts (MoE) 언어 모델은 희소 전문가 활성화 (sparse expert activation)를 통해 토큰당 계산량을 줄이지만, 배포 시에는 여전히 전체 전문가 풀을 저장해야 하므로, 메모리 사용량을 줄이기 위한 One-Shot 전문가 프루닝 (one-shot expert pruning)이 실용적인 접근 방식입니다. 효과적이기는 하지만, 기존의 기준들은 대체로 휴리스틱 (heuristic)에 의존하며, 모든 상황에 보편적으로 최적인 단일 기준은 존재하지 않습니다. 따라서 다양한 배포 목표에 적합한 프루닝 기준을 선택하기 위한 원칙을 수립하는 것은 One-Shot 전문가 프루닝 분야에서 중요하지만 아직 충분히 연구되지 않은 문제입니다. 이를 위해, 우리는 라우팅 빈도 (routing frequency), 게이트 가중치 (gate weighting), 그리고 활성화 강도 (activation strength)라는 세 가지 요소를 중심으로 구성된 One-Shot MoE 전문가 프루닝을 위한 통합 공식 (unified formulation)을 소개합니다. 이 공식은 다음과 같은 기준 선택 원칙을 도출합니다: 태스크 불가지론적 (task-agnostic) 프루닝은 라우팅된 토큰 평균 (routed-token-averaged) 및 게이트가 없는 활성화 기반 (gate-free activation-based) 기준을 선호해야 하는 반면, 태스크 특정적 (task-specific) 프루닝은 라우팅 빈도 및 게이트 가중치 정보를 유지함으로써 이점을 얻을 수 있습니다. 이 원칙을 넘어, 본 공식은 기존의 휴리스틱 기준들에 대한 체계적인 관점을 제공하며, 두 가지 새로운 태스크 불가지론적 기준인 평균 활성화 노름 (Mean Activation Norm, MAN)과 평균 제곱 활성화 노름 (Mean Squared Activation Norm, MSAN)을 제시합니다. 4개의 대표적인 MoE 모델과 16개의 다양한 벤치마크를 통해 실험한 결과, MAN과 MSAN은 태스크 불가지론적 설정에서 일관되게 강력한 성능을 보였으며, 상위 2위의 평균 순위를 기록하였고, 가장 강력한 베이스라인 대비 평균 성능을 최대 8.8포인트 향상시켰습니다.

AI 자동 생성 콘텐츠

원문 바로가기

One-Shot MoE 전문가 프루닝을 위한 전문가 점수 산정 방법: 통합 공식 및 선택 원칙

요약

핵심 포인트

댓글