STAR-KV: 적응형 랭크 제어를 위한 소프트 임계값 기반의 저차원 (Low-Rank) KV 캐시 압축
요약
STAR-KV는 은닉 차원의 중복성을 활용하여 KV 캐시를 압축하는 적응형 저차원 투영 프레임워크입니다. 미분 가능한 임계값 메커니즘과 하이브리드 분해 전략을 통해 정확도 저하를 최소화하면서도 높은 압축률을 달성합니다.
핵심 포인트
- 미분 가능한 임계값 메커니즘으로 최적의 랭크 선택 가능
- 하이브리드 분해 전략 및 저차원 인지 혼합 정밀도 양자화 적용
- 최대 75%의 KV 캐시 압축 및 양자화 결합 시 최대 20배 감소
- Triton 기반 커널 구현으로 엔드투엔드 처리량 최대 3.1배 향상
저차원 투영 (Low-rank projection)은 은닉 차원 (hidden-dimension)의 중복성을 활용하여 KV 캐시를 압축하는 유망한 접근 방식으로 부상했습니다. 그러나 기존 방법들은 고정되거나 휴리스틱한 (heuristic) 랭크 선택에 의존하며, 정확도 저하를 최소화하면서 공격적인 압축을 달성하는 데 어려움을 겪고 있습니다. 우리는 미세한 랭크 제어가 가능한 적응형 저차원 KV 캐시 압축 프레임워크인 STAR-KV를 제안합니다. STAR-KV는 1) 어텐션 헤드 (attention-head) 및 블록 (block) 수준 모두에서 최적의 랭크 선택을 가능하게 하는 미분 가능한 임계값 메커니즘 (differentiable thresholding mechanism), 2) 키 (key) 및 값 (value) 투영의 민감도에 따라 서로 다른 저차원 분해를 적용하는 하이브리드 분해 전략 (hybrid decomposition strategy), 3) 데이터 통계량을 활용하여 손실에 가까운 저비트 양자화 (near lossless low-bit quantization)를 수행하는 저차원 인지 혼합 정밀도 양자화 (low-rank-aware mixed precision quantization)를 포함합니다. 여러 LLM 및 벤치마크를 통해 평가한 결과, STAR-KV는 최대 75%의 KV 캐시 압축을 달성하였으며, 양자화와 결합 시 최대 20배의 전체 KV 캐시 감소를 보여주었습니다. 커스텀 Triton 기반 GPU 커널을 통해 구현된 STAR-KV는 어텐션 모듈에서 최대 6.9배의 속도 향상과 3.1배의 엔드투엔드 (end-to-end) 생성 처리량 (throughput)을 제공합니다. 우리의 코드는 다음에서 공개적으로 사용할 수 있습니다: https://github.com/PriyanshBhatnagar/STAR-KV.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기