arXiv논문2026. 04. 30. 16:48

FaaSMoE: 다중 테넌트 혼합 전문가 모델 제공을 위한 서버리스 프레임워크

요약

FaaSMoE는 함수-as-a-Service(FaaS) 플랫폼을 활용하여 혼합 전문가(MoE) 모델을 다중 테넌트 환경에서 제공하는 새로운 아키텍처입니다. 이 프레임워크는 MoE의 제어 및 실행 평면을 분리하고, 각 전문가를 상태가 없는 FaaS 함수로 배포함으로써 온디맨드 호출과 스케일-투-제로(scale-to-zero) 기능을 구현합니다. 그 결과, 기존 방식 대비 리소스를 획기적으로 절감하면서도 다중 테넌트 환경에서 확장 가능하고 효율적인 MoE 서비스를 제공할 수 있음을 입증했습니다.

핵심 포인트

MoE 모델의 배포 시 발생하는 메모리 비효율성 문제를 해결하기 위해 FaaS 기반 아키텍처를 제안함.
FaaSMoE는 전문가(Expert)를 상태가 없는 FaaS 함수로 분리하여, MoE의 실행 및 제어 평면을 효과적으로 분리합니다.
다중 테넌트 환경에서 온디맨드 호출과 스케일-투-제로 기능을 지원하여 리소스 효율성을 극대화합니다.
실제 프로토타입 구현 및 평가 결과, 기존 모델 대비 3분의 1 미만의 리소스로 MoE를 제공할 수 있음을 입증했습니다.

혼합 전문가 (Mixture-of-Experts, MoE) 모델은 입력당 소수의 전문가 모델만 활성화함으로써 높은 용량을 효율적인 추론 비용으로 제공합니다. 그러나 MoE 모델을 배포하려면 모든 전문가가 메모리에 존재해야 하므로, 활성화된 전문가가 사용하는 리소스와 할당된 리소스 사이에 격차가 발생합니다. 이러한 비효율은 다중 테넌트 시나리오에서 더욱 두드러집니다. 본 논문에서는 함수-as-a-Service (Function-as-a-Service, FaaS) 플랫폼을 기반으로 구축한 다중 테넌트 MoE 제공 아키텍처인 FaaSMoE 를 제안합니다. FaaSMoE 는 전문가를 상태가 없는 FaaS 함수로 배포하여 MoE 의 제어 평면과 실행 평면을 분리함으로써, 테넌트 간 온디맨드 및 스케일-투-제로 (scale-to-zero) 전문가 호출을 가능하게 합니다. FaaSMoE 는 또한 함수 내에서의 전문가粒度 (granularity) 를 구성 가능하게 지원하여, 호출 오버헤드를 줄이기 위해 전문가당 탄력성을 양보합니다. 우리는 오픈소스 에지 중심 FaaS 플랫폼을 사용하여 프로토타입을 구현하고, 다중 테넌트 워크로드 하에서 Qwen1.5-moe-2.7B 를 사용하여 평가했습니다. 전체 모델 기준선과 비교할 때, FaaSMoE 는 리소스의 3 분의 1 미만을 사용하며, 다중 테넌트 환경에서의 확장 가능한 MoE 제공을 위한 실용적이고 리소스 효율적인 경로를 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FaaSMoE: 다중 테넌트 혼합 전문가 모델 제공을 위한 서버리스 프레임워크

요약

핵심 포인트

댓글