SAGA: GPU 클러스터에서의 AI 에이전트 추론을 위한 워크플로우 원자 스케줄링
요약
본 논문은 기존 GPU 스케줄러가 LLM 에이전트의 연쇄 호출(워크플로우)을 독립적으로 취급하여 발생하는 심각한 지연 시간 증가 문제를 해결하기 위해 'SAGA'라는 새로운 분산 스케줄러를 제안합니다. SAGA는 개별 추론 호출 대신 전체 에이전트 워크플로우 자체를 스케줄링 단위로 간주하는 프로그램 수준의 접근 방식을 채택했습니다. 이를 통해 KV 캐시 재사용을 최적화하고, 세션 친화적인 배치 및 공정한 자원 할당 메커니즘을 구현하여, 기존 시스템 대비 작업 완료 시간을 크게 단축시키고 GPU 메모리 활용도를 개선함을 입증했습니다.
핵심 포인트
- 기존 스케줄러는 LLM 에이전트의 복합 워크플로우를 독립적인 호출로 취급하여 지연 시간(latency)을 증가시키는 근본적인 문제를 안고 있다.
- SAGA는 전체 AI 에이전트 워크플로우를 하나의 '스케줄링 단위'로 간주하는 프로그램 수준의 접근 방식을 도입했다.
- 세 가지 핵심 메커니즘(작업 실행 그래프, 세션 친화성 배치/도둑기, 에이전트 공정한 공유)을 통해 효율성을 극대화한다.
- 실제 벤치마크에서 SAGA는 기존 시스템 대비 작업 완료 시간을 1.64배 단축하고 GPU 메모리 활용도를 1.22배 개선하는 뛰어난 성능을 보였다.
AI 에이전트는 하나의 작업당 수십에서 수백 개의 연쇄된 LLM 호출을 실행하지만, GPU 스케줄러는 각 호출을 독립적으로 취급하여 단계 간 테라바이트 규모의 중간 상태를 폐기하고 엔드 투 엔드 지연을 3~8 배 증가시킵니다. 우리는 이 요청 수준의 추상화가 복합 AI 워크로드에 근본적으로 불일치한다고 주장하며, 프로그램 수준의 스케줄링으로의 전환을 제안합니다: 전체 에이전트 워크플로우 (개별 추론 호출이 아닌) 를 일차적인 스케줄 가능 단위로 취급합니다.
우리는 세 가지 메커니즘을 통해 이 추상화를 구현한 분산 스케줄러 SAGA를 제시합니다:
(1) 작업 실행 그래프: 도구 호출 경계 간 KV 캐시 재사용을 예측하기 위해 워크플로우 구조를 포착하며, Bélády 의 최적 오프라인 정책 대비 1.31 배 이내의 성능을 달성합니다.
(2) 세션 친화성 배치 및 작업 도둑기: 상관관계가 있는 요청을 함께 배치하면서 전역 부하 균형을 유지합니다.
(3) 에이전트 공정한 공유 (Agent Fair Share): 증명 가능한 유한 편차 보장을 가진 작업 완료 시간 공정성 지표입니다.
SWE-bench 코딩 에이전트와 WebArena 브라우저 작업을 서비스하는 64-GPU 클러스터에서, SAGA 는 vLLM v0.15.1(프록시 캐싱 및 친화성 라우팅 포함) 과 비교하여 작업 완료 시간을 1.64 배 (기하평균, p < 0.001) 줄이고 GPU 메모리 활용도를 1.22 배 개선하며 다 테넌트 간섭 하에서 99.2% SLO 달성률을 달성합니다.
이 지연 시간 향상은 정량화된 비용으로 이어집니다: 최적 배치 스케줄링 대비 약 30% 낮은 피크 트루스풋 (throughput-optimal batch scheduling). 이는 복합 AI 사용의 대부분을 차지하는 지연 시간 민감형 인터랙티브 배포에 적합한 트레이드오프입니다. 우리의 결과는 워크플로우 인식 스케줄링이 효율적인 복합 AI 서비스 제공에 필수적임을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기