ReFreeKV: 임계값 없는 KV 캐시 압축을 향하여

LLM 추론 중 메모리 소비를 줄이기 위해, KV 캐시 프루닝 (KV cache pruning)을 위한 몇 가지 방법들이 제안되었습니다. 이러한 기술들은 많은 데이터셋에서 손실 없는 메모리 감소를 달성할 수 있지만, 종종 간과된 조건에 의존합니다. 즉, 최적의 성능을 달성하기 위해서는 KV 캐시 예산에 대한 입력/도메인별 임계값 (threshold)이 미리 결정되어야 한다는 점입니다. 그러나 오픈 도메인 입력은 임계값 선택을 위한 명확한 경계 없이 다양한 도메인, 길이 및 난이도를 아우르기 때문에, 이러한 입력 민감형 설계는 실제 시나리오에서 상당히 제한될 수 있습니다. 결과적으로, 이러한 입력 민감형 임계값에 대한 의존성은 임의의 입력에서 큰 성능 저하를 일으키는 근본적인 한계가 될 수 있습니다. 본 연구에서는 견고한 KV 압축을 위해 임계값 제약을 제거하는 새로운 목적 함수를 제안하며, 전체 캐시 성능을 유지하면서 예산 할당을 적응적으로 조정하는 "임계값 없는 (threshold-free)" 방식을 옹호합니다. 그런 다음, 우리는 이 목적 함수의 첫 번째 구현체로서 새로운 방법인 ReFreeKV를 제안합니다. 다양한 컨텍스트 길이, 작업 유형 및 모델 크기를 가진 13개의 데이터셋에 걸친 광범위한 실험을 통해 그 효능과 효율성을 입증합니다.

arXiv : https://arxiv.org/abs/2502.16886
Full Paper : https://arxiv.org/pdf/2502.16886
GitHub : https://github.com/Patrick-Ni/ReFreeKV
submitted by /u/pmttyji
[link] [comments]

Insights

ReFreeKV: 임계값 없는 KV 캐시 압축을 향하여

요약

핵심 포인트

댓글

Alibaba의 Damo Academy AI 에이전트, 28시간 만에 4개의 새로운 초전도체 발견

AI Security Inst, 테스트 시간 연산(Test-Time Compute)이 프런티어 모델 평가를 왜곡한다고 밝혀

Adyen, 리더십 업데이트의 일환으로 임시 CFO 임명

온디바이스 디퓨전 (On-Device Diffusion), Zed 1.0, 그리고 지금 즉시 Node.js를 패치해야 하는 5가지 이유

Alibaba의 Damo Academy AI 에이전트, 28시간 만에 4개의 새로운 초전도체 발견

AI Security Inst, 테스트 시간 연산(Test-Time Compute)이 프런티어 모델 평가를 왜곡한다고 밝혀

Adyen, 리더십 업데이트의 일환으로 임시 CFO 임명

온디바이스 디퓨전 (On-Device Diffusion), Zed 1.0, 그리고 지금 즉시 Node.js를 패치해야 하는 5가지 이유