
ReFreeKV, KV 캐시 압축을 위한 수동 임계값 설정 제거
요약
ReFreeKV는 KV 캐시 압축 시 수동 임계값 설정이 필요 없는 적응형 프루닝 기술을 제안합니다. 입력 복잡도에 따라 예산을 자동으로 조정하여 LLaMA, Mistral, Qwen 모델에서 높은 성능을 유지합니다.
핵심 포인트
- 수동 임계값 설정 없이 KV 캐시 압축 가능
- 입력 복잡도에 따른 적응형 프루닝(Adaptive pruning) 적용
- LLaMA, Mistral, Qwen 모델에서 Full-cache 성능 입증
- 13개의 데이터셋을 통한 성능 검증 완료
ReFreeKV는 KV 캐시 (KV cache) 압축을 위한 수동으로 조정된 임계값 (hand-tuned thresholds)을 제거합니다.
적응형 프루닝 (Adaptive pruning)은 입력 복잡도에 맞춰 예산을 자동으로 조정합니다. LLaMA, Mistral, 그리고 Qwen을 대상으로 한 13개의 데이터셋에서 전체 캐시 (full-cache) 성능과 일치하는 결과를 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기