b9717: ggml-cpu: Power10 Q8/Q4 MMA matmul에서 K tails 지원 (#24753)
요약
ggml-cpu의 Power10 MMA Q8/Q4 행렬 곱셈(matmul)에서 K tails를 지원하도록 패치되었습니다. 이를 통해 K가 kc로 나누어떨어져야 했던 제약이 제거되어 더 많은 워크로드가 MMA 커널을 사용할 수 있게 되었습니다.
핵심 포인트
- Power10 MMA Q8/Q4 matmul에서 K tails 지원 추가
- K가 kc로 나누어떨어져야 했던 기존 요구 사항 제거
- mnpack으로의 폴백(fallback) 감소 및 성능 최적화
- ggml-cpu: Power10 MMA Q8/Q4 matmul에서 K tails 지원
이 패치는 tinyBlas_Q0_PPC tiled matmul 경로에서 K가 kc로 나누어떨어져야 하는 요구 사항을 제거합니다. 마지막 K 패널을 실제 깊이(depth)를 사용하여 처리하고, 줄어든 패널 크기를 패킹(packing) 및 커널 실행(kernel execution) 과정에 전달합니다. 이를 통해 더 많은 워크로드(workload)가 MMA 커널을 사용할 수 있게 되며, mnpack으로의 폴백(fallback)이 감소합니다.
- @taronaeo의 제안 적용
Co-authored-by: Aaron Teo taronaeo@gmail.com
Co-authored-by: Aaron Teo taronaeo@gmail.com
AI 자동 생성 콘텐츠
본 콘텐츠는 llama.cpp Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기