llama.cpp헤드라인2026. 04. 27. 22:36

b8931

요약

이 기술 기사는 CUDA 및 다양한 플랫폼(macOS, Linux, Android, Windows 등)에서 MMQ 스트림-k 오버헤드를 줄이기 위한 최적화 변경 사항을 다루고 있습니다. 특히 kbc에 32비트 정수를 사용하도록 수정하여 성능 향상을 목표로 합니다. 광범위한 아키텍처와 프레임워크(CUDA, Vulkan, ROCm, OpenVINO, SYCL 등)를 지원하는 다양한 빌드 버전을 제공하며, 이는 다중 환경에서의 호환성과 효율성을 높이는 데 중점을 두고 있습니다.

핵심 포인트

MMQ 스트림-k 오버헤드를 감소시키기 위해 kbc에 32비트 정수 사용 최적화가 적용되었습니다.
macOS (Apple Silicon, Intel) 및 iOS를 포함하여 광범위한 모바일/데스크톱 환경을 지원합니다.
Linux는 CPU 기반부터 CUDA, Vulkan, ROCm, OpenVINO, SYCL 등 다양한 가속기 백엔드를 포괄적으로 지원합니다.
Windows와 openEuler에서도 CPU 및 주요 GPU API(CUDA, Vulkan, HIP)를 통한 폭넓은 플랫폼 호환성을 확보했습니다.

CUDA: MMQ 스트림-k 오버헤드 감소 (#22298)
CUDA: MMQ 스트림-k 오버헤드 감소 위해 kbc 에 32 비트 정수 사용
macOS/iOS:

macOS Apple Silicon (arm64)
macOS Apple Silicon (arm64, KleidiAI 활성화됨)
macOS Intel (x64)
iOS XCFramework
Linux:
Ubuntu x64 (CPU)
Ubuntu arm64 (CPU)
Ubuntu s390x (CPU)
Ubuntu x64 (Vulkan)
Ubuntu arm64 (Vulkan)
Ubuntu x64 (ROCm 7.2)
Ubuntu x64 (OpenVINO)
Ubuntu x64 (SYCL FP32)
Ubuntu x64 (SYCL FP16)
Android:
Android arm64 (CPU)
Windows:
Windows x64 (CPU)
Windows arm64 (CPU)
Windows x64 (CUDA 12) - CUDA 12.4 DLLs
Windows x64 (CUDA 13) - CUDA 13.1 DLLs
Windows x64 (Vulkan)
Windows x64 (SYCL)
Windows x64 (HIP)
openEuler:
openEuler x86 (310p)
openEuler x86 (910b, ACL Graph)
openEuler aarch64 (310p)
openEuler aarch64 (910b, ACL Graph)

AI 자동 생성 콘텐츠

원문 바로가기

b8931

요약

핵심 포인트

댓글