놀라운 성능: 토큰 속도 2배 증가 + 낮은 VRAM 요구량의 KV 캐시 구현 - Qwen 27B
요약
Qwen 27B 모델을 대상으로 토큰 생성 속도를 2배 높이고 VRAM 사용량을 줄인 새로운 KV 캐시 구현 기술을 소개합니다. 256K 컨텍스트에서도 높은 정확도를 유지하며 단일 RTX 3090 환경에서 효율적인 추론이 가능합니다.
핵심 포인트
- 토큰 생성 속도 2배 향상 및 VRAM 사용량 감소 (21GB -> 17.5GB)
- 256K 컨텍스트 구현 시 88-100%의 높은 니들 리콜 달성
- HumanEval, GSM, MATH 등 주요 벤치마크에서 기존 방식과 동일한 정확도 유지
- 단일 RTX 3090 하드웨어에서 효율적인 대규모 컨텍스트 처리 가능
"단일 RTX 3090에서 실행되는 Qwen3.6-27B Q4_K_M: 72 MiB의 상주 KV (resident KV)로 38.6 tok/s의 속도로 네이티브 256K 컨텍스트(context) 구현, 6% 상주율에서 88-100%의 니들 리콜(needle recall) 달성, 하네스 정확도(harness accuracy)는 변경 없음 (전체 캐시 대비 36/36)."
동일한 하드웨어에서 생성 속도는 두 배로 빨라졌고, 전체 컨텍스트 정확도를 유지하면서 VRAM 사용량은 크게 감소했습니다 (21GB에서 17.5GB로).
fahd의 YouTube 영상 --> https://youtu.be/8rTVCRWvRDo?si=MYiVrQQltbSsMAOP
GitHub 링크 - https://github.com/Luce-Org/lucebox-hub/tree/main/optimizations/kvflash
품질 저하 여부?? --> 품질 판정 (하네스 그라운드 트루스(harness ground truth), base-vs-base 대조군 포함): 전체 결과는 RESULTS.md에 있음. 긴 생성 과정에서 출력이 전체 캐시와 바이트 단위로 완전히 일치(byte-identical)한다고 보장할 수는 없으나 (마스크 커널 경로(masked kernel path)의 반올림 방식이 다름 — 결정론적 계보(deterministic lineage)가 다름), 정확도는 동일합니다: HumanEval, GSM, MATH 및 에이전트 제품군(agent suites) 전반에 걸쳐 36/36 대 36/36을 기록했습니다.
제출자: /u/9r4n4y
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기