SwarmX: 저지연 에이전트 시스템을 위한 에이전트 기반 스케줄링 (Agentic Scheduling)
요약
SwarmX는 에이전트 기반 AI 애플리케이션의 저지연 서빙을 위해 제안된 에이전트 기반 스케줄링 시스템입니다. 신경망 예측기를 활용해 프롬프트와 모델 특징을 분석함으로써 꼬리 지연 시간을 획기적으로 줄이고 처리량을 높입니다.
핵심 포인트
- 에이전트의 모델 호출 구조에 최적화된 스케줄링 방식 제안
- 신경망 예측기를 통한 프롬프트 및 모델 특징 기반 지연 시간 예측
- 기존 스케줄러 대비 꼬리 지연 시간 최대 61.5% 감소
- 동일 SLO 기준 운영 스케줄러 대비 최대 2배의 처리량 달성
에이전트 기반 AI (Agentic AI) 애플리케이션은 여러 번의 모델 호출 (model calls)과 도구 실행 (tool executions)을 구성하며, 이는 GPU-CPU 클러스터에 새로운 스케줄링 과제를 제기합니다. 이들의 추론 시간 (inference time)과 모델 호출 구조는 종종 프롬프트 의미론 (prompt semantics)에 따라 달라지기 때문에, 기존의 스케줄링 방식은 저지연 서빙 (low-latency serving)에 효과적이지 않습니다. 본 논문은 저지연 에이전트 기반 애플리케이션을 위해 에이전트 기반 스케줄링 (agentic scheduling)을 구현하는 시스템인 SwarmX를 제시합니다. SwarmX는 프롬프트, 디바이스, 런타임 및 타겟 모델 특징을 포착하기 위해 스케줄링 특화 신경망 예측기 (scheduling-specific neural predictors)를 사용하며, 라우터 (routers)와 스케일러 (scalers)에 분포 예측값 (distributional predictions)을 노출하여 꼬리 지연 시간 (tail-aware)을 고려한 결정을 내리도록 합니다. 또한 예측기 학습 및 온라인 적응 (online adaptation)을 위한 메커니즘을 제공합니다. 이러한 예측기와 메커니즘은 기존의 스케줄링 및 모델 서빙 인프라와의 통합을 위한 공통 기질 (common substrate)을 제공하는 스케줄러-에이전트 프레임워크 (scheduler-agent framework)에 통합됩니다. 우리는 실제 운영 환경 (거의 1,000개의 GPU와 1,000,000개의 CPU 코어) 및 128-GPU 테스트베드에서의 통제된 실험을 통해 SwarmX를 평가합니다. 멀티 에이전트 코드 생성 (multi-agent code generation), 심층 연구 (deep research), 그리고 멀티모달 에이전트 워크플로우 (multimodal agentic workflows) 전반에 걸쳐, SwarmX는 최신 스케줄러(state-of-the-art schedulers) 대비 꼬리 지연 시간 (tail latency)을 최대 61.5%까지 줄이며, 동일한 SLO 하에서 운영 스케줄러 (production schedulers)보다 최대 2배의 처리량 (throughput)을 유지합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기