팁: Intel ARC에서 PP를 개선하기 위해 이 llama.cpp PR을 사용하세요
요약
llama.cpp의 새로운 Pull Request를 통해 Intel ARC GPU에서 프롬프트 처리(PP) 속도가 대폭 향상되었습니다. 테스트 결과, B580 환경에서 처리 속도가 245t/s에서 462t/s로 크게 개선되었습니다.
핵심 포인트
- Intel ARC GPU를 위한 llama.cpp 최적화 진행
- 프롬프트 처리(PP) 속도가 약 1.9배 향상됨
- 현재 F16 KV 양자화 모델에만 적용 가능
- Intel 하드웨어의 AI 성능 잠재력 확인
Intel ARC 사용자들(우리 4명 모두)을 위한 또 다른 승리입니다. 커뮤니티는 Intel ARC를 위해 llama.cpp를 계속해서 개선하고 있습니다. 이번에는 해당 Pull Request (Claude의 도움을 받은)의 주인공이 프롬프트 처리 (Prompt Processing, PP) 속도를 크게 향상시켰습니다. 비교를 위해, 저는 B580을 사용 중이며 116k 컨텍스트 대화를 테스트했습니다. 이전에는 처음부터 모든 것을 처리하는 데 510초가 걸렸고 속도는 245t/s였습니다. 하지만 이제는 262초가 걸리며 462t/s라는 매우 빠른 속도를 보여줍니다; Qwen3.6 35B A3B Q5_K_XL ./llama-server --host 0.0.0.0 --port 8080 --model /models/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf --jinja --threads 8 --ctx-size 262144 --cache-ram 0 --parallel 1 --temperature 0.0 --top-p 0.2 --top-k 20 --no-mmap --spec-type draft-mtp --spec-draft-n-max 3 --batch-size 2700 --ubatch-size 2700 --n-gpu-layers 99 --n-cpu-moe 99. 유일한 단점은 현재 F16 KV에만 적용된다는 점이지만, 기여자가 나중에 다른 양자화 (Quantization) 모델들에 대해서도 작업할 것이라고 말했습니다. 보시다시피, Intel의 하드웨어는 훌륭한 일을 해낼 수 있는 충분한 역량을 갖추고 있으며, 커뮤니티와 Intel의 각 기여는 우리가 하드웨어의 전체 성능을 달성하는 데 한 걸음 더 다가가게 만듭니다.
submitted by /u/WizardlyBump17
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기