llama.cpp헤드라인2026. 05. 04. 20:54

llama.cpp v0.0.2570 (b9016) 릴리스

요약

llama.cpp v0.0.2570 릴리스는 추측 해독(speculative decoding) 관련 파라미터 명명 규칙을 대폭 개선하고 문서를 업데이트했습니다. 주요 변경 사항으로는 `--draft-max/--draft-min`이 `--spec-draft-n-max/--spec-draft-n-min`으로 변경되었으며, 다양한 새로운 `--spec-ngram-*` 파라미터에 대한 문서가 추가되었습니다. 이 버전은 CPU, GPU(CUDA, Vulkan, ROCm 등), 그리고 여러 운영체제 및 아키텍처를 포괄하는 광범위한 빌드 지원을 제공합니다.

핵심 포인트

추측 해독(speculative decoding) 파라미터 명명 규칙이 개선되어 사용성이 향상되었습니다.
기존 `--draft-max/--draft-min` 등의 파라미터가 새로운 `--spec-draft-n-max/--spec-draft-n-min` 형식으로 변경되었습니다.
Vulkan, CUDA, ROCm, OpenVINO 등 다양한 백엔드 및 최적화 옵션이 추가되어 하드웨어 호환성이 극대화되었습니다.
macOS (Apple Silicon, Intel), Linux (다양한 아키텍처/GPU), Windows, Android 등 광범위한 플랫폼을 지원합니다.

docs: 추측 해독 (speculative decoding) 파라미터 재구조화 후 업데이트 (#22397, #22539)

문서 docs/speculative.md 를 PR #22397 에서 도입된 새로운 파라미터 명명 방식에 맞게 업데이트합니다:

--draft-max/--draft-min 을 --spec-draft-n-max/--spec-draft-n-min 으로 교체
--spec-ngram-size-n/m 을 구현별 변형으로 변경
모든 새로운 --spec-ngram-*- 파라미터에 대한 문서를 추가
모든 예제 명령어를 업데이트

Assisted-by: llama.cpp:local pi

pi : GitHub 리소스를 gh CLI 를 사용하여 사용하는 규칙 추가

docs: llama-gen-docs 실행

arg: 오타 수정

macOS/iOS:

macOS Apple Silicon (arm64)
macOS Apple Silicon (arm64, KleidiAI 활성화됨)
macOS Intel (x64)
iOS XCFramework

Linux:

Ubuntu x64 (CPU)
Ubuntu arm64 (CPU)
Ubuntu s390x (CPU)
Ubuntu x64 (Vulkan)
Ubuntu arm64 (Vulkan)
Ubuntu x64 (ROCm 7.2)
Ubuntu x64 (OpenVINO)
Ubuntu x64 (SYCL FP32)
Ubuntu x64 (SYCL FP16)

Android:

Android arm64 (CPU)

Windows:

Windows x64 (CPU)
Windows arm64 (CPU)
Windows x64 (CUDA 12) - CUDA 12.4 DLLs
Windows x64 (CUDA 13) - CUDA 13.1 DLLs
Windows x64 (Vulkan)
Windows x64 (SYCL)
Windows x64 (HIP)

openEuler:

openEuler x86 (310p)
openEuler x86 (910b, ACL Graph)
openEuler aarch64 (310p)
openEuler aarch64 (910b, ACL Graph)

AI 자동 생성 콘텐츠

원문 바로가기

llama.cpp v0.0.2570 (b9016) 릴리스

요약

핵심 포인트

댓글