LMCache/LMCache

[2026/05] 🔥 AMD MI300X에서의 에이전트 워크로드(Agentic workload) 벤치마크 (블로그).
[2026/04] 🔥 LMCache의 새로운 멀티프로세스(MP) 아키텍처 출시 (블로그).
[2026/03] GTC 2026에서의 LMCache (포스트).
[2026/01] LMCache의 멀티 노드 P2P CPU 메모리 공유, 실험적 기능에서 프로덕션 단계로 (블로그).

더 보기

[2025/11] LMCache x CoreWeave, Cohere를 위한 효율적인 LLM 추론 가속화 (블로그).
[2025/10] LMCache, PyTorch Foundation 합류 및 Tensormesh 공개 (블로그, PyTorch).
[2025/09] NVIDIA Dynamo, LMCache 통합을 통한 LLM 추론 가속화 (블로그).
[2025/08] 🎉 LMCache GitHub 스타 5,000개 돌파 (블로그).
[2025/08] LMCache, 출시 첫날 gpt-oss (20B/120B) 지원 (블로그).
[2025/07] LMCache와 Redis를 통해 더 빠른 LLM 추론 및 더 저렴한 응답 구현 (Redis 블로그).
[2025/07] LMCache, vLLM V1에서 멀티모달 모델로 터보 부스트 확장 (블로그).
[2025/06] LLM 프로덕션 스택의 하드웨어 교차 지원: AMD, Arm 및 Ascend (블로그).

LMCache는 LLM 추론을 위한 **KV 캐시 관리 계층 (KV cache management layer)**입니다. LMCache는 KV 캐시를 일시적인 상태에서 영구적으로 저장할 수 있고, 여러 서빙 엔진(serving engines) 간에 재사용할 수 있으며, 관측성 스택(observability stack)을 통해 모니터링하고, 더 나은 생성 품질을 위해 변환할 수 있는 재사용 가능한 *AI 네이티브 지식 (AI-native knowledge)*으로 전환합니다. 그 결과, LMCache는 특히 긴 컨텍스트의 에이전트(agentic), 다회차 대화(multi-turn conversation), 지식 증강 워크로드(예: RAG)에 대해 TTFT (time-to-first-token, 첫 토큰 생성 시간)를 단축하고 처리량(throughput)을 향상시킵니다.

LMCache는 **벤더 중립적 (vendor-neutral)**입니다. 다양한 메인스트림 오픈 소스 서빙 엔진, 추론 프레임워크, 하드웨어 벤더, 스토리지 시스템 및 인프라 제공업체를 위한 KV 캐시 계층으로 사용될 수 있습니다. 이러한 벤더 중립성 덕분에 사용자는 저장된 KV 캐시를 재사용하면서 서빙 엔진과 스토리지 벤더를 자유롭게 전환할 수 있습니다.

엔진 독립적 배포 (Engine-independent deployment): LMCache는 독립적인 데몬 프로세스(daemon process)로서 추론 엔진(inference engine) 프로세스와 별개로 KV 캐시를 관리하므로, 추론 엔진이 충돌하더라도 KV 캐시가 손실되지 않습니다 (즉, 엔진과 운명을 같이하지 않음/no fate-sharing).
지속적이고 계층화된 KV 캐시 오프로딩 및 재사용 (Persistent, tiered KV cache offloading and reuse): KV 캐시를 GPU 메모리에서 CPU 메모리, 로컬 스토리지, 원격 백엔드를 아우르는 계층적 스토리지 계층 구조로 이동시켜, 요청(request), 세션(session), 엔진 인스턴스 간의 재사용을 가능하게 함으로써 반복적인 프리필(prefill) 계산을 줄이고 첫 토큰 생성 시간(TTFT)을 개선합니다.
프로덕션 수준의 KV 캐시 관측성 (Production-level KV cache observability): LMCache는 일반적인 Kubernetes 메트릭(상태 모니터링, 성능 진단), KV 캐시 특화 메트릭(요청 수준 및 토큰 수준의 프리픽스 캐시 히트(prefix cache hits), 라이프사이클, 요청 수준의 KV 캐시 성능), 관리 메트릭(사용자별 사용량) 등을 포함하여 풍부한 KV 캐시 관측성 메트릭 세트를 제공합니다.
플러그형 스토리지 및 전송 백엔드 (Pluggable storage and transport backends): 통합 인터페이스를 통해 원격 스토리지 및 KV 전송 백엔드를 쉽게 통합하여, 스토리지 제공자 간의 KV 캐시 오프로딩 및 공유를 가능하게 합니다. 이 인터페이스를 통해 LMCache는 CPU RAM, 로컬 디스크(SSD), Redis/Valkey, Mooncake, InfiniStore, S3 호환 오브젝트 스토리지(S3-compatible object storage), NIXL, GDS를 포함한 스토리지 백엔드를 지원합니다.
비-프리픽스 KV 재사용 (Non-prefix KV reuse): 프롬프트의 어느 위치에서든 캐시된 KV 블록을 재사용함으로써 프리픽스 캐싱(prefix caching)을 넘어 KV 재사용 범위를 확장합니다. 이는 품질 회복을 위해 토큰을 선택적으로 재계산하는 CacheBlend를 활용합니다.
PD 분리 및 KV 전송 (PD disaggregation and KV transfer): NIXL과 같은 전송 계층을 통해 NVLink, RDMA 또는 TCP를 사용하여 프리필 워커(prefill workers)에서 디코드 워커(decode workers)로의 KV 캐시 전송을 지원합니다.
플러그형 KV 변환 (Pluggable KV transformation): 연구자들이 유연한 SERDE 인터페이스를 통해 압축(compression), 토큰 드롭(token dropping) 및 사용자 정의 직렬화(custom serialization)를 작성할 수 있는 간단한 인터페이스를 제공합니다.

LMCache는 서빙 엔진(serving engines), 추론 프레임워크(inference frameworks), 하드웨어 벤더(hardware vendors), 스토리지 시스템(storage systems) 및 인프라 제공업체(infrastructure providers)와의 커뮤니티 주도 통합을 통해 LLM 추론 *생태계(ecosystem)*의 필수적인 레이어로 자리 잡고 있습니다.

LMCache를 사용하려면 패키지 관리자(예: pip)를 통해 lmcache를 설치하기만 하면 됩니다:

pip install lmcache

더 많은 설정 옵션과 예제는 다음을 참조하세요:

저희는 기여와 협업을 환영하며 가치 있게 생각합니다. LMCache를 개선하는 데 동참해 주세요. 시작하려면 기여 가이드(Contributing Guide)를 확인하거나 저희 Slack 커뮤니티에 가입하세요.

LMCache에는 차세대 효율적인 LLM 추론 시스템을 구축하는 개발자, 연구자, 산업계 도입자 및 파트너들로 구성된 성장하는 커뮤니티가 있습니다.

독립적인 오픈 소스 프로젝트로서, LMCache는 LLM 추론 시 KV 캐시(KV Cache) 관리의 사실상 표준(de-facto standard)이 되어가고 있습니다. LMCache의 지속적인 개발과 커뮤니티 활동은 부분적으로 Tensormesh의 지원을 받습니다.

LMCache는 캐시 재사용(cache reuse), 오프로딩(offloading), 압축(compression) 및 서빙 최적화(serving optimization)를 포함한 KV 캐시 관리 연구를 기반으로 구축되었습니다. 연구에 LMCache를 사용하신다면, LMCache 논문과 관련 연구를 인용해 주세요.

@article{cheng2025lmcache,
title={LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference},
author={Cheng, Yihua and Liu, Yuhan and Yao, Jiayi and An, Yuwei and Chen, Xiaokun and Feng, Shaoting and Huang, Yuyang and Shen, Samuel and Du, Kuntai and Jiang, Junchen},
...

LMCache/LMCache

요약

핵심 포인트

더 보기

관련 논문 (Related papers)

댓글