긴 추론을 위한 정보 인지형 KV 캐시 압축 (Information-Aware KV Cache Compression for Long
요약
LLM의 긴 문맥 추론 시 발생하는 KV 캐시 문제를 해결하기 위해 정보 이론적 신호를 활용한 InfoKV 프레임워크를 제안합니다. 기존 어텐션 기반 방식과 달리 예측 불확실성을 고려하여 미래 문맥에 실질적인 영향을 미치는 토큰을 효과적으로 압축합니다.
핵심 포인트
- 기존 어텐션 기반 KV 캐시 압축의 한계인 정보성 간과 문제 지적
- 미래 문맥에 미치는 영향을 측정하는 Forward Influence 지표 도입
- 엔트로피와 어텐션 점수를 결합한 InfoKV 프레임워크 제안
- Llama-3.1, DeepSeek-R1 등에서 기존 방식 대비 우수한 성능 입증
대규모 언어 모델 (LLMs)에서 추론 능력 (Reasoning capability)이 급격히 발전함에 따라, 프리필링 (prefilling) 및 디코딩 (decoding) 단계 모두에서 키-값 (KV) 캐시의 크기가 증가하고 있습니다. 기존의 KV 캐시 압축 방법들은 주로 어텐션 가중치 (attention weights)에 의존하여 토큰의 중요도를 추정합니다. 어텐션은 문맥적 관련성 (contextual relevance)을 효과적으로 포착하지만, 예측 불확실성 (predictive uncertainty) 및 토큰 정보성 (token informativeness)과 관련된 상호 보완적인 정보 이론적 신호 (information-theoretic signals)를 간과합니다. 본 논문에서는 우리는 미래 지향적인 관점에서 토큰 중요도를 재검토하고, 압축된 토큰이 미래 문맥에 어떻게 영향을 미치는지 측정하는 지표인 \textit{Forward Influence}를 소개합니다. 우리의 분석에 따르면, 어텐션 점수에 의해 선택된 토큰은 주로 인접한 문맥에 영향을 미치는 반면, 높은 예측 불확실성과 관련된 토큰은 먼 미래의 문맥에 실질적으로 더 강력한 영향력을 발휘합니다. 이러한 관찰을 바탕으로, 우리는 정보 이론적 신호를 통합하는 엔트로피 인지형 (entropy-aware) KV 캐시 압축 프레임워크인 \textbf{InfoKV}를 제안합니다. 이는 토큰 수준의 예측 불확실성을 레이어별 표현 진화 (layer-wise representation evolution)와 결합하며, 추론 과정에서 결과적으로 도출된 엔트로피 점수를 어텐션 점수와 통합합니다. Llama-3.1, Llama-3.2, 그리고 DeepSeek-R1을 사용한 긴 문맥 추론 벤치마크 실험을 통해, InfoKV가 긴 프리필링 및 디코딩 시나리오 모두에서 기존의 어텐션 기반 KV 압축 방법들을 일관되게 능가함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기