arXiv논문2026. 06. 05. 13:46

Tangram: 효율적인 멀티턴 LLM 서빙을 위한 비균일 KV 캐시 활용 기술

요약

Tangram은 비균일 KV 캐시 압축을 활용하여 멀티턴 LLM 서빙의 효율성을 극대화하는 새로운 시스템입니다. 결정론적 예산 할당, 헤드 그룹 페이지, AOT 부하 분산 기술을 통해 메모리 파편화와 스케줄링 오버헤드를 해결합니다. 실험 결과 모델 정확도를 유지하면서 처리량을 최대 2.6배 향상시켰습니다.

핵심 포인트

비균일 KV 캐시 압축을 통한 GPU 메모리 및 대역폭 압박 완화
결정론적 예산 할당으로 동적 스케줄링 오버헤드 및 프리필 지연 제거
헤드 그룹 페이지 기술로 물리적 메모리 회수 극대화
AOT 부하 분산을 통한 런타임 오버헤드 없는 균일한 GPU 활용
기존 베이스라인 대비 최대 2.6배의 처리량 향상 달성

멀티턴 대규모 언어 모델 (LLM) 서빙은 일관된 사용자 경험을 위해 매우 중요하지만, Key-Value (KV) 캐시의 선형적 증가는 GPU 메모리와 대역폭(bandwidth)에 상당한 압박을 가합니다. 비균일 (Non-uniform) KV 압축은 각 KV 캐시의 개별적인 중요도를 고려함으로써 더 많은 정보를 효과적으로 보존합니다. 그러나 이러한 KV 캐시의 이질성 (heterogeneity)은 메모리 파편화 (memory fragmentation), 스케줄링 복잡성, 커널 활용도 저하를 포함한 다양한 시스템적 과제를 야기하며, 이는 결과적으로 기존 LLM 서빙 시스템에서 상당한 비효율성을 초래합니다. 이러한 과제를 극복하기 위해, 우리는 비균일 KV 캐시를 실용적으로 사용할 수 있도록 설계된 새로운 서빙 시스템인 Tangram을 제안합니다. Tangram은 세 가지 핵심 기술을 통해 시스템적 비효율성을 해결합니다: (1) 결정론적 예산 할당 (Deterministic Budget Allocation)은 각 헤드 (head)의 고유한 패턴을 기반으로 정적 메모리 점유량을 할당하여, 동적 스케줄링 오버헤드와 프리필 (prefill) 지연을 완전히 제거합니다; (2) 헤드 그룹 페이지 (Head Group Page)는 유지 요구 사항이 유사한 어텐션 헤드 (attention heads)를 클러스터링하고 이를 독립적인 벡터화된 페이지 테이블 (vectorized page tables)로 관리하여 물리적 메모리 회수를 극대화합니다; (3) Ahead-of-Time (AOT) 부하 분산 (Load Balancing)은 정적 예산 프로필을 활용하여 런타임 오버헤드 없이 균일한 GPU 활용도를 보장합니다. 실험 결과에 따르면, Tangram은 모델 정확도를 완전히 보존하면서도 기존 베이스라인 대비 처리량 (throughput)을 최대 2.6배 향상시킵니다. 우리의 구현체는 https://github.com/aiha-lab/TANGRAM 에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Tangram: 효율적인 멀티턴 LLM 서빙을 위한 비균일 KV 캐시 활용 기술

요약

핵심 포인트

댓글