llama.cpp - Blackwell 에서 NVFP4 네이티브 지원 시작 - b8967
요약
llama.cpp 프로젝트가 Blackwell 아키텍처의 NVFP4 데이터 타입을 네이티브로 지원하는 업데이트를 발표했습니다. 이 새로운 기능은 RTX 5090과 같은 최신 하드웨어에서 대규모 언어 모델(LLM) 추론 성능을 크게 향상시킬 잠재력을 보여줍니다. 테스트 결과에 따르면, Qwen3.6-27B NVFP4 모델을 사용하여 높은 초당 토큰(t/s) 속도를 달성하며 효율성을 입증했습니다.
핵심 포인트
- llama.cpp가 Blackwell 아키텍처의 NVFP4 데이터 타입을 네이티브로 지원하기 시작했다.
- NVFP4 네이티브 지원은 최신 GPU 하드웨어에서 LLM 추론 성능을 크게 향상시킨다.
- 테스트 환경에서는 Qwen3.6-27B 모델을 사용하여 매우 높은 초당 토큰(t/s) 속도를 기록하며 효율성을 입증했다.
- 사용자들은 네이티브 지원과 비네이티브 지원 간의 성능 차이를 비교할 수 있는 벤치마크 자료를 확인할 수 있다.
마침 이제 가능해 보입니다! 테스트 시간!!!
https://github.com/ggml-org/llama.cpp/releases/tag/b8967
플랫폼: RTX 5090+(RTX5060TI - 테스트 중 사용 안함) - Ryzen 9 9950X3D+128 GB DDR5 5600 CL36):
테스트:
CUDA_VISIBLE_DEVICES=0 /home/marcin/llama.cpp/llama-bench \
-m /home/marcin/llama.cpp_models/Qwen3.6-27B-NVFP4/Qwen3.6-27B-NVFP4.gguf \
-ngl 999 \
-fa 1 \
-p 512,2048 \
-n 128,512 \
-d 0,4096,8192,16384,32768 \
-r 5 \
-o md | tee /home/marcin/qwen3.6-27b-nvfp4-gpu0-bench-depth.md
| 모델 | 크기 | 파라미터 | 백엔드 | ngl | fa | 테스트 | t/s |
|---|---|---|---|---|---|---|---|
| qwen35 27B NVFP4 | 17.50 GiB | 26.90 B | CUDA | 999 | 1 | pp512 | 5546.93 ± 220.29 |
| ... |
동일한 모델에 대한 전체 비교 - llama.cpp 에서 네이티브 NVFP4 지원 vs. 비네이티브 NVFP4 지원 - 여기에서 확인 가능:
https://www.reddit.com/r/LocalLLaMA/comments/1syxckc/llamacpp_benchmark_native_vs_non_native_nvfp4_on/
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기