본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 27. 02:30

CUDA: am17an에 의한 빠른 Walsh-Hadamard 변환(FWHT) 추가 · Pull Request #23615 ·

요약

CUDA 환경에서 KV 캐시 양자화 속도를 높이기 위한 Fast Walsh-Hadamard Transform(FWHT) 구현이 추가되었습니다. 이를 통해 prefill 성능은 약 1-2%, text generation 성능은 약 7-9% 향상되는 결과를 보였습니다.

핵심 포인트

  • CUDA 기반 FWHT 구현으로 KV 캐시 양자화 가속화
  • Prefill 단계에서 약 1-2% 성능 향상
  • Text Generation 단계에서 약 7-9% 성능 향상
  • RTX 5090 환경에서 Gemma 4 모델 테스트 완료

CUDA를 위한 FWHT(Fast Walsh-Hadamard Transform)를 구현하였습니다(u/am17an 작성). 이는 KV 캐시(kv-cache)를 양자화(quantize)하는 경우의 속도를 향상시킵니다.

**1-2%**의 pp(prefill) 성능 향상 및 **7-9%**의 tg(text generation) 성능 향상이 있습니다.

-ctk q8_0 -ctv q8_0 옵션을 사용한 5090에서의 성능 결과입니다.

모델테스트t/s mastert/s cuda-fwt속도 향상
gemma4 26B.A4B Q4_K_Mpp204813587.8913809.201.02
...gemma4 26B.A4B Q4_K_Mtg128@d16384204.54

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0