llama.cpp헤드라인2026. 06. 19. 15:23

b9717: ggml-cpu: Power10 Q8/Q4 MMA matmul에서 K tails 지원 (#24753)

요약

ggml-cpu의 Power10 MMA Q8/Q4 행렬 곱셈(matmul)에서 K tails를 지원하도록 패치되었습니다. 이를 통해 K가 kc로 나누어떨어져야 했던 제약이 제거되어 더 많은 워크로드가 MMA 커널을 사용할 수 있게 되었습니다.

핵심 포인트

Power10 MMA Q8/Q4 matmul에서 K tails 지원 추가
K가 kc로 나누어떨어져야 했던 기존 요구 사항 제거
mnpack으로의 폴백(fallback) 감소 및 성능 최적화

ggml-cpu: Power10 MMA Q8/Q4 matmul에서 K tails 지원

이 패치는 tinyBlas_Q0_PPC tiled matmul 경로에서 K가 kc로 나누어떨어져야 하는 요구 사항을 제거합니다. 마지막 K 패널을 실제 깊이(depth)를 사용하여 처리하고, 줄어든 패널 크기를 패킹(packing) 및 커널 실행(kernel execution) 과정에 전달합니다. 이를 통해 더 많은 워크로드(workload)가 MMA 커널을 사용할 수 있게 되며, mnpack으로의 폴백(fallback)이 감소합니다.

@taronaeo의 제안 적용

Co-authored-by: Aaron Teo taronaeo@gmail.com

AI 자동 생성 콘텐츠

원문 바로가기

b9717: ggml-cpu: Power10 Q8/Q4 MMA matmul에서 K tails 지원 (#24753)

요약

핵심 포인트

댓글