FMplex: 확장 가능한 파운데이션 모델 (Foundation Models) 서빙을 위한 모델 가상화
요약
FMplex는 파운데이션 모델(FM)을 가상화 기질로 활용하여 효율적인 서빙을 지원하는 시스템입니다. 공유된 물리적 백본을 통해 논리적으로 격리된 가상 모델 인스턴스를 제공함으로써 메모리 낭비를 줄이고 배치 효율을 극대화합니다.
핵심 포인트
- 가상 파운데이션 모델(vFM) 개념을 통한 백본 공유 및 메모리 절약
- 태스크별 독립적인 라이프사이클과 격리성 유지
- 배치 인식 공정 큐 스케줄러를 통한 지연 시간 단축
- 기존 방식 대비 최대 6배 더 많은 태스크 호스팅 가능
파운데이션 모델 (Foundation Models, FMs)은 언어, 비전, 시계열 및 멀티모달 (multimodal) 애플리케이션 전반에 걸쳐 다운스트림 태스크 (downstream tasks)를 위한 백본 (backbones)으로 점점 더 많이 사용되고 있습니다. 그러나 기존의 모델 서빙 시스템은 각 맞춤형 태스크를 독립적인 모델 인스턴스로 배포하며, 이로 인해 무거운 백본을 복제하여 가속기 메모리를 낭비하고, 배치 (batching) 및 로딩 비용을 분할 상환할 기회를 놓치게 됩니다. 본 논문에서는 FM 백본을 배포 공유를 위한 가상화 기질 (virtualization substrate)로 취급하는 서빙 시스템인 FMplex를 제시합니다. FMplex는 각 태스크에 대해 공유된 물리적 FM에 의해 지원되는 논리적으로 프라이빗한 FM 인스턴스인 가상 파운데이션 모델 (virtual foundation model, vFM)을 제공합니다. 이러한 추상화를 통해 독립적으로 맞춤화된 태스크들이 태스크별 확장성, 독립적인 라이프사이클 (lifecycles), 그리고 태스크 수준의 격리 (isolation)를 유지하면서도 백본을 공유할 수 있습니다. 또한, 우리는 가중치가 부여된 태스크 수준의 공유와 함께, 함께 배치된(colocated) 태스크들 간의 태스크 간(inter-task) 및 태스크 내(intra-task) 배치를 결합한 배치 인식 공정 큐 스케줄러 (batch-aware fair-queueing scheduler)를 제안합니다. 우리는 태스크 구축, 공유 인식 배포, 그리고 런타임 실행을 아우르는 FMplex 기반의 서빙 스택을 구현했습니다. 7개의 FM 백본 (16개 변체)과 92개의 다운스트림 태스크에 대해 실험한 결과, FMplex는 공간 분할 (spatial partitioning) 대비 최대 80%, 최선형 공동 배치 (best-effort co-location) 대비 33.3%의 지연 시간 (latency)을 줄였으며, 클러스터 규모에서 최대 6배 더 많은 태스크를 호스팅할 수 있었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기