llama.cpp헤드라인2026. 04. 30. 17:47

b8969

요약

이 기술 기사는 ggml 라이브러리에 `gemm_q8_0_4x8_q8_0()` 커널을 위한 SVE(Scalable Vector Extension) 튜닝 코드를 추가한 내용을 다룹니다. 이 업데이트는 특정 행렬 곱셈(GEMM) 연산의 성능 최적화를 목표로 하며, `repack.cpp` 파일에서 배열 정의를 `static const`로 변경하는 등의 코드 개선을 포함합니다.

핵심 포인트

ggml 라이브러리에 SVE 튜닝 코드를 추가하여 특정 GEMM 커널(`gemm_q8_0_4x8_q8_0()`)의 성능을 최적화했습니다.
이 업데이트는 다양한 아키텍처와 플랫폼(macOS, Linux, Android, Windows 등)에서 광범위하게 지원됩니다.
`repack.cpp` 파일에서 배열 정의를 `static const`로 변경하는 등의 코드 레벨 개선이 이루어졌습니다.

ggml: gemm_q8_0_4x8_q8_0() 커널을 위한 SVE 튜닝 코드 추가 (#21916)
gemm_q8_0_4x8_q8_0() 커널을 위한 SVE 튜닝 코드를 추가했습니다.
repack.cpp 에서 배열을 static const 로 변경했습니다.

공저자: Vithulep prashant.vithule@fujitsu.com

macOS/iOS:

macOS Apple Silicon (arm64)
macOS Apple Silicon (arm64, KleidiAI 활성화됨)
macOS Intel (x64)
iOS XCFramework

Linux:

Ubuntu x64 (CPU)
Ubuntu arm64 (CPU)
Ubuntu s390x (CPU)
Ubuntu x64 (Vulkan)
Ubuntu arm64 (Vulkan)
Ubuntu x64 (ROCm 7.2)
Ubuntu x64 (OpenVINO)
Ubuntu x64 (SYCL FP32)
Ubuntu x64 (SYCL FP16)

Android:

Android arm64 (CPU)

Windows:

Windows x64 (CPU)
Windows arm64 (CPU)
Windows x64 (CUDA 12) - CUDA 12.4 DLLs
Windows x64 (CUDA 13) - CUDA 13.1 DLLs
Windows x64 (Vulkan)
Windows x64 (SYCL)
Windows x64 (HIP)

openEuler:

openEuler x86 (310p)
openEuler x86 (910b, ACL Graph)
openEuler aarch64 (310p)
openEuler aarch64 (910b, ACL Graph)

AI 자동 생성 콘텐츠

원문 바로가기

b8969

요약

핵심 포인트

댓글