본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 24. 10:14

CompressKV: 자원 효율적인 긴 문맥 LLM 추론을 위한 의미론적 검색 가이드 기반 KV-Cache 압축

요약

CompressKV는 GQA 기반 LLM의 긴 문맥 추론 시 발생하는 KV 캐시 메모리 문제를 해결하기 위한 새로운 압축 프레임워크입니다. 의미론적 검색 헤드(SRHs)를 식별하여 중요한 토큰을 선별하고 레이어별로 캐시 예산을 효율적으로 할당합니다.

핵심 포인트

  • 의미론적 검색 헤드(SRHs)를 통해 중요한 문맥 토큰을 정밀하게 포착
  • 레이어별 제거 오차 추정치를 기반으로 최적의 캐시 예산 할당
  • LongBench에서 KV 캐시 3%만으로 성능의 97% 이상 보존
  • Needle-in-a-Haystack 테스트에서 0.7% 저장 공간으로 90% 정확도 달성

긴 문맥 대규모 언어 모델 (Long-context LLM) 추론은 키-값 (KV) 캐시의 메모리 점유율과 디코딩 비용으로 인해 점점 더 제약을 받고 있으며, 이는 자원이 제한된 하드웨어에서의 지속 가능한 배포를 제한합니다. 기존의 KV 캐시 제거 (eviction) 방법들은 일반적으로 GQA 기반 LLM의 모든 헤드(head)에 대해 휴리스틱 토큰 점수 산정 방식을 적용합니다. 이러한 방법들은 어텐션 헤드 (attention heads)의 서로 다른 기능들을 무시하며, 이로 인해 중요한 토큰이 제거되어 LLM의 성능을 저하시킵니다. 이 문제를 해결하기 위해, 우리는 GQA 기반 LLM을 위한 자원 효율적인 KV-캐시 압축 프레임워크인 CompressKV를 제안합니다. CompressKV는 모든 헤드의 어텐션 점수를 합산하는 대신, 프롬프트의 초기 및 최종 토큰과 의미론적으로 중요한 중간 문맥 증거를 모두 포착하는 의미론적 검색 헤드 (Semantic Retrieval Heads, SRHs)를 식별하고, 이를 사용하여 KV 쌍을 유지해야 할 토큰을 선택합니다. 또한, CompressKV는 레이어별 제거 오차 (layer-wise eviction error)의 오프라인 추정치에 따라 레이어 전반에 걸쳐 캐시 예산을 할당합니다. LongBench 및 Needle-in-a-Haystack에 대한 실험 결과, CompressKV는 메모리 예산 전반에 걸쳐 기존의 KV-캐시 제거 방법들보다 일관되게 우수한 성능을 보였습니다. 특히, LongBench 질의응답 작업에서 KV 캐시의 3%만을 사용하여 전체 캐시 성능의 97% 이상을 보존하였으며, Needle-in-a-Haystack에서는 단 0.7%의 KV 저장 공간으로 90%의 정확도를 달성했습니다. 이러한 결과는 긴 문맥 LLM 추론을 위한 개선된 자원-성능 트레이드오프 (resource-performance trade-off)를 입증합니다. 우리의 코드는 다음에서 공개적으로 사용할 수 있습니다: https://github.com/TUDa-HWAI/CompressKV

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0