놀라운 성능: 토큰 속도 2배 증가 + 낮은 VRAM 요구량의 KV 캐시 구현 - Qwen 27B - Insights | Molayo

"단일 RTX 3090에서 실행되는 Qwen3.6-27B Q4_K_M: 72 MiB의 상주 KV (resident KV)로 38.6 tok/s의 속도로 네이티브 256K 컨텍스트(context) 구현, 6% 상주율에서 88-100%의 니들 리콜(needle recall) 달성, 하네스 정확도(harness accuracy)는 변경 없음 (전체 캐시 대비 36/36)."
동일한 하드웨어에서 생성 속도는 두 배로 빨라졌고, 전체 컨텍스트 정확도를 유지하면서 VRAM 사용량은 크게 감소했습니다 (21GB에서 17.5GB로).
fahd의 YouTube 영상 -->

GitHub 링크 - https://github.com/Luce-Org/lucebox-hub/tree/main/optimizations/kvflash
품질 저하 여부?? --> 품질 판정 (하네스 그라운드 트루스(harness ground truth), base-vs-base 대조군 포함): 전체 결과는 RESULTS.md에 있음. 긴 생성 과정에서 출력이 전체 캐시와 바이트 단위로 완전히 일치(byte-identical)한다고 보장할 수는 없으나 (마스크 커널 경로(masked kernel path)의 반올림 방식이 다름 — 결정론적 계보(deterministic lineage)가 다름), 정확도는 동일합니다: HumanEval, GSM, MATH 및 에이전트 제품군(agent suites) 전반에 걸쳐 36/36 대 36/36을 기록했습니다.
제출자: /u/9r4n4y
[link] [comments]

Insights

놀라운 성능: 토큰 속도 2배 증가 + 낮은 VRAM 요구량의 KV 캐시 구현 - Qwen 27B

요약

핵심 포인트

댓글

중국 Alibaba, 미국의 AI 패권에 다시 한번 도전장을 내밀다

칩 주식의 변동성이 지속되는 가운데 AMD, 2분기 실적 발표 예정

중국, 개정 규정을 통해 칩 설계 보호 강화

남아프리카 공화국, 국경 간 암호화폐 거래에 대한 초안 규정 발표

칩 주식의 변동성이 지속되는 가운데 AMD, 2분기 실적 발표 예정

중국, 개정 규정을 통해 칩 설계 보호 강화

남아프리카 공화국, 국경 간 암호화폐 거래에 대한 초안 규정 발표