proveKV – LLM을 위한 정직한 36배 무손실 (f32 대비) 및 18배 (fp16 대비) KV-cache 압축 (PPL 저하 없음)
요약
LLM의 KV-cache를 f32 대비 36배 무손실로 압축할 수 있는 오픈 소스 기술인 proveKV를 소개합니다. PPL 저하 없이 메모리 효율을 극대화하며, 자동화된 감사 스크립트를 통해 수치의 투명성을 검증했습니다.
핵심 포인트
- f32 대비 36배, fp16 대비 18배 무손실 압축 달성
- PPL(Perplexity) 변화량 0%로 성능 저하 없음
- 자동화된 감사 파이프라인을 통한 수치 투명성 확보
- Rust 기반 예제 및 상세한 검증 프로세스 제공
재현 가능한 KV-cache (Key-Value Cache) 압축 기술을 보여주는 새로운 오픈 소스 저장소(repo)를 공유합니다.
- 결과: SmolLM2-1.7B + WikiText-2 환경에서 f32-raw KV cache 대비 36배 무손실(lossless) / 68배 손실(lossy) 메모리 절감 (PPL 변화량 0%).
- 투명성: 수치들은 소스 코드 → CLAIMS.json → 검증 영수증(validation receipts)으로 직접 연결되며, 자동화된 감사 스크립트(prove_audit.sh)를 통해 검증되었습니다.
- 포함 내용: Rust 예제, 전체 감사 파이프라인, 그리고 세 가지 베이스라인 계산 방식과 정직한 수치를 얻기 위해 왜 "+1" 오프셋을 제거했는지 설명하는 상세한 README가 포함되어 있습니다.
KV-cache 효율성에 관심이 있다면 확인해 보시고 의견을 남겨주세요: https://github.com/RecursiveIntell/proveKV
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기