CUDA: am17an에 의한 빠른 Walsh-Hadamard 변환(FWHT) 추가 · Pull Request #23615 ·
요약
CUDA 환경에서 KV 캐시 양자화 속도를 높이기 위한 Fast Walsh-Hadamard Transform(FWHT) 구현이 추가되었습니다. 이를 통해 prefill 성능은 약 1-2%, text generation 성능은 약 7-9% 향상되는 결과를 보였습니다.
핵심 포인트
- CUDA 기반 FWHT 구현으로 KV 캐시 양자화 가속화
- Prefill 단계에서 약 1-2% 성능 향상
- Text Generation 단계에서 약 7-9% 성능 향상
- RTX 5090 환경에서 Gemma 4 모델 테스트 완료
CUDA를 위한 FWHT(Fast Walsh-Hadamard Transform)를 구현하였습니다(u/am17an 작성). 이는 KV 캐시(kv-cache)를 양자화(quantize)하는 경우의 속도를 향상시킵니다.
**1-2%**의 pp(prefill) 성능 향상 및 **7-9%**의 tg(text generation) 성능 향상이 있습니다.
-ctk q8_0 -ctv q8_0 옵션을 사용한 5090에서의 성능 결과입니다.
| 모델 | 테스트 | t/s master | t/s cuda-fwt | 속도 향상 |
|---|---|---|---|---|
| gemma4 26B.A4B Q4_K_M | pp2048 | 13587.89 | 13809.20 | 1.02 |
| ... | gemma4 26B.A4B Q4_K_M | tg128@d16384 | 204.54 |
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기