본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 03. 11:31

NetKV: 분리형 LLM 추론을 위한 네트워크 인지 디코드 인스턴스 선택 방식

요약

분리형 LLM 추론 환경에서 네트워크 지연을 고려하여 디코드 인스턴스를 선택하는 NetKV 알고리즘을 제안합니다. 기존 스케줄러가 간과하던 토폴로지 거리와 네트워크 혼잡을 반영하여 TTFT를 획기적으로 단축합니다.

핵심 포인트

  • 네트워크 비용 오라클을 통한 토폴로지 거리 및 혼잡도 반영
  • Mooncake 트레이스 기반 시뮬레이션에서 평균 TTFT 최대 21.2% 감소
  • 기존 캐시/부하 인지 스케줄러 대비 TTFT 17.6% 개선
  • 추가적인 하드웨어 변경 없이 SLO 달성률 최대 20.1%p 향상

분리형(Disaggregated) LLM 추론은 디코딩(Decoding)이 시작되기 전에 KV 캐시(KV cache)가 데이터센터 네트워크를 통과하도록 강제하며, 따라서 전송 시간이 첫 번째 토큰 생성 시간(TTFT, Time to First Token) 예산에 직접적으로 포함됩니다. 현재의 스케줄러(Schedulers)는 연산 부하(Compute load)와 프리픽스 캐시 지역성(Prefix-cache locality)만을 기준으로 경로를 지정하며, 프리필(Prefill) 인스턴스와 디코드(Decode) 인스턴스 사이의 토폴로지 거리(Topological distance) 및 동적 혼잡(Dynamic congestion)은 무시합니다. 우리는 연산자-스케줄러 간의 얇은 인터페이스인 네트워크 비용 오라클(Network cost oracle)을 통해 이 간극을 메우며, 네트워크 항(Network term)을 무시하는 것이 컨텍스트 길이(Context length)가 증가함에 따라 캐시 인지 전용(Cache-aware-only) 스케줄링을 임의로 최적화되지 않은 상태(Suboptimal)로 만든다는 것을 증명합니다. 이 오라클을 사용하는 요청당 O(|D|) 복잡도의 탐욕적(Greedy) 알고리즘인 NetKV는 오래된 텔레메트리(Stale telemetry)에 대해서도 증명 가능한 수준의 견고한 계층 순위(Tier rankings)를 가집니다. Mooncake 트레이스(Traces)로 구동되는 64-GPU 4계층 패브릭 트리(Fat-tree) 시뮬레이터에서, NetKV는 라운드 로빈(Round-robin) 대비 평균 TTFT를 최대 21.2% 감소시키고, 튜닝된 캐시+부하 인지(Cache+load-aware) 스케줄러 대비 17.6% 감소시켰습니다. 또한 SLO 달성률을 최대 20.1%포인트 끌어올렸으며, 전송(Transport), 추론 엔진(Inference engine) 또는 하드웨어의 변경 없이 테스트된 모든 조건에서 토큰 간 시간(Time Between Tokens) 오버헤드를 0.5ms 미만으로 유지했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0