arXiv논문2026. 05. 20. 16:34

KV-RM: 정적 그래프 LLM 서빙을 위한 KV-Cache 이동 정규화

요약

KV-RM은 정적 그래프 LLM 디코더의 불규칙한 KV-cache 동작 문제를 해결하기 위해 제안된 런타임 설계입니다. 논리적 히스토리와 물리적 저장소를 분리하고 비연속적인 KV 매핑을 병합함으로써, 정적 그래프의 장점을 유지하면서도 메모리 효율성과 레이턴시 안정성을 동시에 확보합니다.

핵심 포인트

정적 그래프 LLM 디코더의 불규칙한 KV-cache 이동 및 메모리 파편화 문제 해결
논리적 KV 히스토리와 물리적 저장소의 분리 및 블록 페이저를 통한 상태 추적
비연속적인 KV 매핑을 소수의 큰 전송 그룹으로 병합하는 병합 단계 전송 경로 도입
NVIDIA A100 환경에서 처리량(throughput) 향상 및 꼬리 레이턴시(tail latency) 스파이크 제거 확인
예약된 KV 메모리 사용량을 줄여 메모리 효율성 개선

정적 그래프 (Static-graph) LLM 디코더는 예측 가능한 실행, 고정된 텐서 형상 (tensor shapes), 그리고 낮은 제출 오버헤드 (submission overhead)를 제공하지만, 온라인 디코딩은 매우 불규칙한 KV-cache 동작을 노출합니다. 즉, 요청 길이는 서로 다르고, EOS (End-of-Sentence) 이벤트는 비동기적으로 발생하며, 논리적 히스토리 (logical histories)는 시간이 지남에 따라 파편화됩니다. 동적 런타임 (Dynamic runtimes)은 페이지 기반 KV 관리 (paged KV management)와 스텝 수준 스케줄링 (step-level scheduling)을 통해 유연성을 회복하는 반면, 정적 그래프 실행기 (static-graph executors)는 종종 메모리를 과도하게 예약하고 버스트 시간 (burst-time) 레이턴시 이상치 (latency outliers)로 인해 어려움을 겪습니다.

본 논문은 이러한 변동성의 상당 부분을 고정된 디코드 인터페이스 (decode interface) 하단에서 흡수할 수 있는지 연구합니다. 우리는 정적 그래프 LLM 디코더 하단에서 KV-cache 이동을 정규화하는 런타임 설계인 KV-RM을 제시합니다. KV-RM은 논리적 KV 히스토리를 물리적 저장소로부터 분리하고, 블록 페이저 (block pager)를 통해 활성 KV 상태를 추적하며, 단일 커밋된 디스크립터 (committed descriptor)를 통해 각 디코드 스텝을 구체화합니다. 병합 단계 전송 경로 (merge-staged transport path)는 고정된 형상의 어텐션 커널 (attention kernel)이 이를 소비하기 전에 비연속적인 KV 매핑을 소수의 큰 전송 그룹으로 병합합니다. 동일한 인터페이스 하에서 선택적으로 제한된 원거리 히스토리 요약 (bounded far-history summaries)을 활성화할 수 있지만, 핵심 설계는 이에 의존하지 않습니다.

2-GPU NVIDIA A100 노드에서 KV-RM은 정적 그래프 베이스라인 대비 혼합 길이 디코딩 처리량 (throughput)과 꼬리 레이턴시 (tail latency)를 개선하고, 다양한 워크로드 제품군에 걸쳐 예약된 KV 메모리를 줄이며, 프로덕션 트레이스 재생 (production-trace replay) 시 심각한 버스트 시간 레이턴시 스파이크를 제거합니다. 이러한 결과는 커널 형상 (kernel shape)보다는 KV-cache 이동이 정적 그래프 LLM 서빙에서 런타임 유연성을 회복하기 위한 효과적인 경계가 될 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

KV-RM: 정적 그래프 LLM 서빙을 위한 KV-Cache 이동 정규화

요약

핵심 포인트

댓글