llama.cpp헤드라인2026. 04. 28. 20:55

b8953

요약

ggml-webgpu 프로젝트가 Q1_0 양자화 지원을 추가하고 성능 최적화를 진행했습니다. 주요 업데이트 내용으로는 빠른 행렬 곱(matmul) 및 행렬 벡터 곱(matvec)에 대한 Q1_0 커널이 추가되었으며, 공유 메모리 초기화 과정에서 불필요한 영 영역 채우기가 제거되어 효율성이 개선되었습니다. 이와 함께 macOS, Linux, Android, Windows 등 광범위한 플랫폼과 다양한 하드웨어 가속기(CUDA, Vulkan, ROCm, OpenVINO, SYCL 등)에 대한 빌드 및 지원을 대폭 확장했습니다.

핵심 포인트

Q1_0 양자화 지원 추가: 빠른 matmul 및 matvec 커널 구현으로 모델 추론 성능 향상.
메모리 최적화: 공유 메모리 초기화 과정의 불필요한 오버헤드를 제거하여 효율성 개선.
광범위한 플랫폼 지원: macOS, Linux, Android 등 주요 OS를 포괄하며 다양한 아키텍처(x64, arm64)를 커버합니다.
다양한 백엔드 가속기 통합: CUDA 12/13, Vulkan, ROCm, OpenVINO, SYCL, HIP 등 최신 하드웨어 및 소프트웨어 가속기를 지원합니다.

ggml-webgpu: Q1_0 지원 추가 (#22374)

빠른 행렬 곱 (matmul) 및 행렬 벡터 곱 (matvec) Q1_0 커널 추가

ggml-webgpu: Q1_0 공유 메모리 (shmem) 초기화 시 불필요한 영영역 채우기 제거

macOS/iOS:

macOS Apple Silicon (arm64)
macOS Apple Silicon (arm64, KleidiAI 활성화됨)
macOS Intel (x64)
iOS XCFramework

Linux:

Ubuntu x64 (CPU)
Ubuntu arm64 (CPU)
Ubuntu s390x (CPU)
Ubuntu x64 (Vulkan)
Ubuntu arm64 (Vulkan)
Ubuntu x64 (ROCm 7.2)
Ubuntu x64 (OpenVINO)
Ubuntu x64 (SYCL FP32)
Ubuntu x64 (SYCL FP16)

Android:

Android arm64 (CPU)

Windows:

Windows x64 (CPU)
Windows arm64 (CPU)
Windows x64 (CUDA 12) - CUDA 12.4 DLLs
Windows x64 (CUDA 13) - CUDA 13.1 DLLs
Windows x64 (Vulkan)
Windows x64 (SYCL)
Windows x64 (HIP)

openEuler:

openEuler x86 (310p)
openEuler x86 (910b, ACL Graph)
openEuler aarch64 (310p)
openEuler aarch64 (910b, ACL Graph)

AI 자동 생성 콘텐츠

원문 바로가기

b8953

요약

핵심 포인트

댓글