추론 모델을 위한 가치 인지형 확률적 KV 캐시 제거 (Value-Aware Stochastic KV Cache Eviction)
요약
추론 모델의 긴 출력으로 인한 메모리 병목을 해결하기 위해 가치 인지형 확률적 KV 캐시 제거 방식인 VaSE를 제안합니다. VaSE는 크기가 큰 가치 상태를 보호하고 확률성을 도입하여 기존 방식보다 높은 정확도와 압축 효율을 제공합니다.
핵심 포인트
- VaSE는 훈련 없이 적용 가능한 KV 캐시 제거 레시피임
- 크기가 큰 가치 상태를 보호하여 추론 루프 오류 방지
- 확률적 제거를 통해 캐시의 다양성 및 정확도 향상
- Qwen3 모델 기준 기존 SOTA 방식보다 높은 정확도 기록
- FlashAttention2 지원 및 정적 메모리 점유 가능
추론 모델 (Reasoning models)은 확장된 사고의 사슬 (Chains of Thought)을 통해 정확도를 향상시키지만, 긴 출력값은 메모리 및 연산 병목 현상을 야기합니다. KV 캐시 제거 (KV cache eviction) 방식은 캐시에서 중요하지 않은 키-값 (Key-Value) 쌍을 제거하여 이 비용을 줄여주지만, 전체 KV 캐시를 유지하는 선택 기반 희소 어텐션 (Selection-based sparse attention) 대안보다 정확도가 떨어지는 경우가 많습니다. 우리는 KV 캐시 제거 정확도에 결정적인 핵심 요인들을 식별했습니다. 첫째, 아주 적은 비율의 가치 상태 (Value states)가 비정상적으로 큰 크기 (Magnitude)를 가지며, 이를 제거할 경우 모델이 반복적인 추론 루프에 빠지는 치명적인 실패를 초래합니다. 둘째, 제거 과정에서 확률성 (Stochasticity)을 도입하면 캐시의 다양성 (Diversity)을 높여 정확도를 향상시킬 수 있습니다. 이러한 발견을 바탕으로, 우리는 크기가 큰 가치 상태를 보호하고 다양한 제거 결정을 촉진하는 훈련이 필요 없는 레시피인 VaSE (Value-aware Stochastic KV Cache Eviction)를 제안합니다. 6개의 추론 작업에 걸쳐, 4배의 KV 캐시 압축을 적용한 VaSE 기반의 Qwen3 모델은 동일한 희소성 (Sparsity)에서 기존 SOTA 선택 방식보다 높은 평균 정확도를 기록했으며, 가장 강력한 제거 방식보다 4% 이상 뛰어난 성능을 보였습니다. 전반적으로 VaSE는 효율성과 정확도 사이의 간극을 메우며, FlashAttention2를 지원하고 추론 모델을 위한 정적 메모리 점유 (Static memory footprint)를 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기