팁: Intel ARC에서 PP를 개선하기 위해 이 llama.cpp PR을 사용하세요

Intel ARC 사용자들(우리 4명 모두)을 위한 또 다른 승리입니다. 커뮤니티는 Intel ARC를 위해 llama.cpp를 계속해서 개선하고 있습니다. 이번에는 해당 Pull Request (Claude의 도움을 받은)의 주인공이 프롬프트 처리 (Prompt Processing, PP) 속도를 크게 향상시켰습니다. 비교를 위해, 저는 B580을 사용 중이며 116k 컨텍스트 대화를 테스트했습니다. 이전에는 처음부터 모든 것을 처리하는 데 510초가 걸렸고 속도는 245t/s였습니다. 하지만 이제는 262초가 걸리며 462t/s라는 매우 빠른 속도를 보여줍니다; Qwen3.6 35B A3B Q5_K_XL ./llama-server --host 0.0.0.0 --port 8080 --model /models/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf --jinja --threads 8 --ctx-size 262144 --cache-ram 0 --parallel 1 --temperature 0.0 --top-p 0.2 --top-k 20 --no-mmap --spec-type draft-mtp --spec-draft-n-max 3 --batch-size 2700 --ubatch-size 2700 --n-gpu-layers 99 --n-cpu-moe 99. 유일한 단점은 현재 F16 KV에만 적용된다는 점이지만, 기여자가 나중에 다른 양자화 (Quantization) 모델들에 대해서도 작업할 것이라고 말했습니다. 보시다시피, Intel의 하드웨어는 훌륭한 일을 해낼 수 있는 충분한 역량을 갖추고 있으며, 커뮤니티와 Intel의 각 기여는 우리가 하드웨어의 전체 성능을 달성하는 데 한 걸음 더 다가가게 만듭니다.
submitted by /u/WizardlyBump17
[link] [comments]

Insights

팁: Intel ARC에서 PP를 개선하기 위해 이 llama.cpp PR을 사용하세요

요약

핵심 포인트

댓글

Kicad-Happy, 설계 오류를 포착하기 위해 KiCad 회로도 및 PCB를 분석합니다.

AeroVironment, 강력한 분기 실적 발표에 이어 대규모 대드론(Counter-drone) 계약 체결로 3일간 40% 급등

lfm2.5와 경쟁하기 위해 오픈 라이선스를 적용한 새로운 350M 모델 제작

LLM을 위한 제텔카스텐 (Zettelkasten) 원리를 이용한 에이전틱 메모리 시스템 (Agentic memory system)

Kicad-Happy, 설계 오류를 포착하기 위해 KiCad 회로도 및 PCB를 분석합니다.

AeroVironment, 강력한 분기 실적 발표에 이어 대규모 대드론(Counter-drone) 계약 체결로 3일간 40% 급등

lfm2.5와 경쟁하기 위해 오픈 라이선스를 적용한 새로운 350M 모델 제작

LLM을 위한 제텔카스텐 (Zettelkasten) 원리를 이용한 에이전틱 메모리 시스템 (Agentic memory system)