본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 16:34

KV-RM: 정적 그래프 LLM 서빙을 위한 KV-Cache 이동 정규화

요약

KV-RM은 정적 그래프 LLM 디코더의 불규칙한 KV-cache 동작 문제를 해결하기 위해 제안된 런타임 설계입니다. 논리적 히스토리와 물리적 저장소를 분리하고 비연속적인 KV 매핑을 병합함으로써, 정적 그래프의 장점을 유지하면서도 메모리 효율성과 레이턴시 안정성을 동시에 확보합니다.

핵심 포인트

  • 정적 그래프 LLM 디코더의 불규칙한 KV-cache 이동 및 메모리 파편화 문제 해결
  • 논리적 KV 히스토리와 물리적 저장소의 분리 및 블록 페이저를 통한 상태 추적
  • 비연속적인 KV 매핑을 소수의 큰 전송 그룹으로 병합하는 병합 단계 전송 경로 도입
  • NVIDIA A100 환경에서 처리량(throughput) 향상 및 꼬리 레이턴시(tail latency) 스파이크 제거 확인
  • 예약된 KV 메모리 사용량을 줄여 메모리 효율성 개선

정적 그래프 (Static-graph) LLM 디코더는 예측 가능한 실행, 고정된 텐서 형상 (tensor shapes), 그리고 낮은 제출 오버헤드 (submission overhead)를 제공하지만, 온라인 디코딩은 매우 불규칙한 KV-cache 동작을 노출합니다. 즉, 요청 길이는 서로 다르고, EOS (End-of-Sentence) 이벤트는 비동기적으로 발생하며, 논리적 히스토리 (logical histories)는 시간이 지남에 따라 파편화됩니다. 동적 런타임 (Dynamic runtimes)은 페이지 기반 KV 관리 (paged KV management)와 스텝 수준 스케줄링 (step-level scheduling)을 통해 유연성을 회복하는 반면, 정적 그래프 실행기 (static-graph executors)는 종종 메모리를 과도하게 예약하고 버스트 시간 (burst-time) 레이턴시 이상치 (latency outliers)로 인해 어려움을 겪습니다.

본 논문은 이러한 변동성의 상당 부분을 고정된 디코드 인터페이스 (decode interface) 하단에서 흡수할 수 있는지 연구합니다. 우리는 정적 그래프 LLM 디코더 하단에서 KV-cache 이동을 정규화하는 런타임 설계인 KV-RM을 제시합니다. KV-RM은 논리적 KV 히스토리를 물리적 저장소로부터 분리하고, 블록 페이저 (block pager)를 통해 활성 KV 상태를 추적하며, 단일 커밋된 디스크립터 (committed descriptor)를 통해 각 디코드 스텝을 구체화합니다. 병합 단계 전송 경로 (merge-staged transport path)는 고정된 형상의 어텐션 커널 (attention kernel)이 이를 소비하기 전에 비연속적인 KV 매핑을 소수의 큰 전송 그룹으로 병합합니다. 동일한 인터페이스 하에서 선택적으로 제한된 원거리 히스토리 요약 (bounded far-history summaries)을 활성화할 수 있지만, 핵심 설계는 이에 의존하지 않습니다.

2-GPU NVIDIA A100 노드에서 KV-RM은 정적 그래프 베이스라인 대비 혼합 길이 디코딩 처리량 (throughput)과 꼬리 레이턴시 (tail latency)를 개선하고, 다양한 워크로드 제품군에 걸쳐 예약된 KV 메모리를 줄이며, 프로덕션 트레이스 재생 (production-trace replay) 시 심각한 버스트 시간 레이턴시 스파이크를 제거합니다. 이러한 결과는 커널 형상 (kernel shape)보다는 KV-cache 이동이 정적 그래프 LLM 서빙에서 런타임 유연성을 회복하기 위한 효과적인 경계가 될 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0