Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

CUDA: am17an에 의한 빠른 Walsh-Hadamard 변환(FWHT) 추가 · Pull Request #23615 · - Insights | Molayo | Molayo

Reddit요약2026. 05. 27. 02:30

CUDA: am17an에 의한 빠른 Walsh-Hadamard 변환(FWHT) 추가 · Pull Request #23615 ·

원문 발행 2026. 05. 26. 02:22원문 언어 영어AI 한국어 번역Reddit AI Engineering 원문 보기

CUDA 환경에서 KV 캐시 양자화 속도를 높이기 위한 Fast Walsh-Hadamard Transform(FWHT) 구현이 추가되었습니다. 이를 통해 prefill 성능은 약 1-2%, text generation 성능은 약 7-9% 향상되는 결과를 보였습니다.

CUDA를 위한 FWHT(Fast Walsh-Hadamard Transform)를 구현하였습니다(u/am17an 작성). 이는 KV 캐시(kv-cache)를 양자화(quantize)하는 경우의 속도를 향상시킵니다.

**1-2%**의 pp(prefill) 성능 향상 및 **7-9%**의 tg(text generation) 성능 향상이 있습니다.

-ctk q8_0 -ctv q8_0 옵션을 사용한 5090에서의 성능 결과입니다.

모델	테스트	t/s master	t/s cuda-fwt	속도 향상
gemma4 26B.A4B Q4_K_M	pp2048	13587.89	13809.20	1.02
...		gemma4 26B.A4B Q4_K_M	tg128@d16384	204.54

AI 자동 생성 콘텐츠