r/LocalLLaMA분석2026. 06. 21. 10:53

llama.cpp B70 SYCL 벤치마크 결과

요약

llama.cpp B70 빌드에서 SYCL 백엔드를 사용한 Gemma 4 및 Qwen 모델의 성능 벤치마크 결과입니다. 다양한 모델 크기와 양자화 설정에 따른 토큰 생성 속도(t/s)를 측정하였습니다.

핵심 포인트

Gemma 4 12B 모델의 SYCL 백엔드 성능 측정
Gemma 4 26B 및 E2B 모델의 프롬프트/토큰 생성 속도 확인
Qwen 35B MoE 및 Qwen 35 27B 모델의 벤치마크 데이터 포함
SYCL 백엔드 최적화 여지에 대한 언급

빌드: dd4623a74 (9640)
사실, 이것은 코드 블록으로 만들고 싶지 않습니다. 그렇게 하면 정렬에 도움이 되지 않기 때문입니다. 대신 Markdown 테이블 형식을 사용하려 했으나, 추가적인 빈 줄들 때문에 테이블로 파싱되지 않았습니다.

모델 크기(model size) 파라미터(params) 백엔드(backend) ngl 테스트(test) t/s

gemma4 12B Q8_0 11.78 GiB 11.91 B SYCL -1 pp512 1578.19 ± 7.82
gemma4 12B Q8_0 11.78 GiB 11.91 B SYCL -1 tg128 32.43 ± 0.07
------------------------------ ---------: ---------: ---------- --: --------------: -------------------:
gemma4 26B.A4B Q8_0 25.00 GiB 25.23 B SYCL -1 pp512 1332.35 ± 8.80
gemma4 26B.A4B Q8_0 25.00 GiB 25.23 B SYCL -1 tg128 40.13 ± 0.09
------------------------------ ---------: ---------: ---------- --: --------------: -------------------:
gemma4 E2B Q8_0 4.69 GiB 4.65 B SYCL -1 pp512 5662.45 ± 23.05
gemma4 E2B Q8_0 4.69 GiB 4.65 B SYCL -1 tg128 109.14 ± 0.26

모델 크기(model size) 파라미터(params) 백엔드(backend) ngl ot 테스트(test) t/s

qwen35moe 35B.A3B Q8_0 34.36 GiB 34.66 B SYCL 99 blk.(3[4-9]).ffn_(gate│up│down)exps=CPU pp512 563.48 ± 14.58
qwen35moe 35B.A3B Q8_0 34.36 GiB 34.66 B SYCL 99 blk.(3[4-9]).ffn(gate│up│down)_exps=CPU tg128 44.67 ± 0.04

모델 크기(model size) 파라미터(params) 백엔드(backend) ngl 테스트(test) t/s

qwen35 27B Q8_0 27.04 GiB 27.32 B SYCL -1 pp512 778.20 ± 0.99
qwen35 27B Q8_0 27.04 GiB 27.32 B SYCL -1 tg128 15.42 ± 0.01

참고로 알려드립니다. 잘 작동하긴 하지만, 더 좋아질 수 있습니다.
제출자: /u/siegevjorn
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

llama.cpp B70 SYCL 벤치마크 결과

요약

핵심 포인트

댓글