멀티 모델 LLM 스케줄러를 향하여: 오프로딩(Offloading) 및 선점(Preemption)에 관한 실증적 통찰
요약
본 논문은 이기종 하드웨어 환경에서 여러 LLM을 동시에 서비스할 때 발생하는 오프로딩(Offloading) 및 선점(Preemption)의 성능 영향을 실증적으로 분석합니다. 연구 결과, 오프로딩은 모델 크기에 따라 디코드 처리량에 비선형적인 저하를 일으키며, 선점 시 발생하는 오버헤드는 KV 캐시 전송보다 모델 상태 재로드에 의해 주로 결정됨을 밝혀냈습니다.
핵심 포인트
- 오프로딩은 디코드 처리량에 비선형적인 저하를 초래하며, 특히 작은 모델일수록 GPU 상주 시간 감소에 더 민감하게 반응함
- 선점(Preemption) 오버헤드의 주된 원인은 KV 캐시 전송이 아닌 모델 상태의 재로드(Model state reload)임
- 시퀀스 길이와 상호 연결 대역폭(Interconnect bandwidth)이 데이터 이동 및 실행 비효율성을 증폭시키는 핵심 요소임
- 효율적인 차세대 LLM 스케줄러 설계를 위해 모델별 오프로딩 민감도와 선점 비용 구조를 반드시 고려해야 함
최근 대규모 언어 모델 (LLMs)의 배포는 공유된 이기종 하드웨어에서 다양한 아키텍처, 크기 및 전문성을 가진 여러 모델을 서비스하는 것을 점점 더 요구하고 있습니다. 이러한 설정은 자원 할당, 디스패칭 (dispatching), 그리고 스케줄링 (scheduling) 측면에서 새로운 과제를 제기하며, 특히 부분적인 CPU-GPU 오프로딩 (offloading) 및 선점 (preemption)이 필수적인 GPU 메모리 제약 조건 하에서 더욱 그러합니다. 기존 시스템들은 주로 단일 모델에 대한 처리량 (throughput) 최적화에 집중해 왔으나, 이러한 조건 하에서의 멀티 모델 스케줄링을 다룬 연구는 상대적으로 적습니다. 본 논문에서는 레이어 오프로딩 (layer offloading) 및 선점 (preemption)이 성능에 미치는 영향에 초점을 맞추어, 다양한 하드웨어 플랫폼에서 서로 다른 LLMs가 어떻게 동작하는지에 대한 실증적 연구를 제시합니다. 우리는 오프로딩이 디코드 처리량 (decode throughput)의 강력한 비선형적이고 모델 의존적인 저하를 초래하며, 특히 작은 모델일수록 감소된 GPU 상주 (GPU residency)에 대해 더 급격한 민감도를 보인다는 것을 보여줍니다. 나아가 우리는 선점이 상당한 오버헤드 (overhead)를 발생시키며, 이 오버헤드는 키-값 캐시 (key-value cache) 전송보다는 주로 모델 상태 재로드 (model state reload)에 의해 지배된다는 점과, 이 비용이 모델 및 하드웨어 플랫폼에 따라 크게 달라진다는 것을 입증합니다. 또한, 데이터 이동 및 실행 비효율성을 증폭시키는 시퀀스 길이 (sequence length)와 상호 연결 대역폭 (interconnect bandwidth)의 역할을 강조합니다. 이러한 발견을 바탕으로, 우리는 모델별 오프로딩 민감도, 워크로드 특성, 선점 및 데이터 전송의 비용 구조를 포함하여 향후 스케줄러가 반드시 고려해야 할 핵심 기능 세트를 식별합니다. 이러한 통찰은 하이브리드 CPU-GPU 실행을 통해 이기종 멀티 모델 워크로드를 효율적으로 관리할 수 있는 차세대 LLM 서비스 시스템 설계를 위한 가이드를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기