arXiv논문2026. 06. 16. 12:00

메모리 제약이 있는 LLM 서빙에서의 서비스 유발 혼잡 (Service-Induced Congestion)

요약

LLM 서빙 중 KV 캐시 증가로 인해 발생하는 메모리 제약 및 서비스 유발 혼잡 현상을 분석합니다. 연속 배치 환경에서 메모리 축출이 처리량에 미치는 영향을 동역학 모델로 규명하고, 시스템 안정화를 위한 스케줄링 원칙을 제안합니다.

핵심 포인트

KV 캐시 성장이 미래의 메모리 용량 압박을 유발하는 구조적 불안정성 식별
메모리 초과 시 발생하는 요청 축출이 처리량을 최대 50%까지 감소시킴
워크로드의 이질성이 시스템의 안정성과 비동기화에 미치는 영향 증명
높은 처리량 유지를 위한 스케줄링 설계 원칙 및 안정성 기준 도출

대규모 언어 모델 (LLM) 서빙에서, 각 요청은 생성되는 토큰이 늘어남에 따라 키-값 캐시 (key-value cache)가 성장하면서 서비스 과정 동안 지속적인 그래픽 처리 장치 (GPU) 메모리를 축적합니다. 따라서 높은 동시성 (high concurrency) 하에서는 총 메모리 사용량이 시간이 지남에 따라 내생적으로 증가합니다. 즉, 서비스 프로세스 자체가 미래의 용량 압박을 생성합니다. 메모리 용량이 초과되면 시스템은 활성 요청을 축출 (evict)하여 캐시된 상태를 폐기하고 나중에 다시 시작하게 되는데, 이는 계산을 낭비하고 처리량 (throughput)을 감소시킵니다. 우리는 연속 배치 (continuous batching) 환경에서 수락 (admission), 메모리 성장, 그리고 축출을 포착하는 메모리 제약 LLM 추론의 이산 시간 동역학 모델 (discrete-time dynamical model)을 개발합니다. 포화 입력 (saturated-input) 영역에서, 시스템은 축출이 없는 고정점 (fixed points)과 축출이 발생하는 한계 주기 (limit cycles)를 모두 허용합니다. 균질한 워크로드 (homogeneous workloads)의 경우, 우리는 축출이 없는 평형 상태가 불안정하며, 르베그 측도 (Lebesgue-measure)가 0인 정확한 포착 집합 (exact-capture set)을 제외하고는 시스템이 이 예외적인 집합 외부에서 점근적으로 안정적인(asymptotically stable) 고유한 최악의 한계 주기로 수렴하며, 이때 처리량 손실이 최대 50%에 달함을 보여줍니다. 이질적인 워크로드 (heterogeneous workloads)의 경우, 우리는 2개 클래스 공통 입력 (two-class common-input) 설정에서의 안정성 기준을 증명하고, 생존 다항식 (survival-polynomial) 메커니즘이 어떻게 여러 클래스와 이질적인 입력 길이로 일반화되는지 설명합니다. 입력 지배적 스케일링 (input-dominated scaling) 영역에서, 서로소 (coprime)인 디코딩 길이는 축출이 없는 평형 상태를 안정화하는 반면, 서로소가 아닌 길이는 불안정성을 유발하는 동기화된 모드 (synchronized modes)를 생성합니다. 이러한 결과는 워크로드의 이질성이 언제 완료 (completions)를 비동기화하는지 특성화하며, 메모리 제약이 있는 서빙을 안정화하는 데 도움을 줍니다. 더 넓게는, 우리는 서비스 유발 혼잡을 구조적 불안정성 메커니즘으로 식별하고 높은 처리량을 유지하기 위한 스케줄링 설계 원칙을 도출합니다.

AI 자동 생성 콘텐츠

원문 바로가기

메모리 제약이 있는 LLM 서빙에서의 서비스 유발 혼잡 (Service-Induced Congestion)

요약

핵심 포인트

댓글