ReFreeKV: 임계값 없는 KV 캐시 압축을 향하여
요약
LLM 추론 시 메모리 효율을 높이기 위한 KV 캐시 프루닝 기술의 한계인 '입력/도메인별 임계값 의존성'을 해결하는 ReFreeKV를 제안합니다. 임계값 제약 없이 예산 할당을 적응적으로 조정하여 다양한 입력 환경에서도 성능 저하 없이 효율적인 압축을 달성합니다.
핵심 포인트
- 기존 KV 캐시 프루닝의 임계값 설정 의존성 문제 해결
- 임계값 없이 예산을 적응적으로 조정하는 새로운 목적 함수 제안
- 다양한 컨텍스트 길이와 모델 크기에서 높은 효율성 입증
- 오픈 도메인 입력에 대해 견고한 KV 압축 성능 제공
LLM 추론 중 메모리 소비를 줄이기 위해, KV 캐시 프루닝 (KV cache pruning)을 위한 몇 가지 방법들이 제안되었습니다. 이러한 기술들은 많은 데이터셋에서 손실 없는 메모리 감소를 달성할 수 있지만, 종종 간과된 조건에 의존합니다. 즉, 최적의 성능을 달성하기 위해서는 KV 캐시 예산에 대한 입력/도메인별 임계값 (threshold)이 미리 결정되어야 한다는 점입니다. 그러나 오픈 도메인 입력은 임계값 선택을 위한 명확한 경계 없이 다양한 도메인, 길이 및 난이도를 아우르기 때문에, 이러한 입력 민감형 설계는 실제 시나리오에서 상당히 제한될 수 있습니다. 결과적으로, 이러한 입력 민감형 임계값에 대한 의존성은 임의의 입력에서 큰 성능 저하를 일으키는 근본적인 한계가 될 수 있습니다. 본 연구에서는 견고한 KV 압축을 위해 임계값 제약을 제거하는 새로운 목적 함수를 제안하며, 전체 캐시 성능을 유지하면서 예산 할당을 적응적으로 조정하는 "임계값 없는 (threshold-free)" 방식을 옹호합니다. 그런 다음, 우리는 이 목적 함수의 첫 번째 구현체로서 새로운 방법인 ReFreeKV를 제안합니다. 다양한 컨텍스트 길이, 작업 유형 및 모델 크기를 가진 13개의 데이터셋에 걸친 광범위한 실험을 통해 그 효능과 효율성을 입증합니다.
arXiv : https://arxiv.org/abs/2502.16886
Full Paper : https://arxiv.org/pdf/2502.16886
GitHub : https://github.com/Patrick-Ni/ReFreeKV
submitted by /u/pmttyji
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기