llama.cpp v0.0.2570 (b9016) 릴리스
요약
llama.cpp v0.0.2570 릴리스는 추측 해독(speculative decoding) 관련 파라미터 명명 규칙을 대폭 개선하고 문서를 업데이트했습니다. 주요 변경 사항으로는 `--draft-max/--draft-min`이 `--spec-draft-n-max/--spec-draft-n-min`으로 변경되었으며, 다양한 새로운 `--spec-ngram-*` 파라미터에 대한 문서가 추가되었습니다. 이 버전은 CPU, GPU(CUDA, Vulkan, ROCm 등), 그리고 여러 운영체제 및 아키텍처를 포괄하는 광범위한 빌드 지원을 제공합니다.
핵심 포인트
- 추측 해독(speculative decoding) 파라미터 명명 규칙이 개선되어 사용성이 향상되었습니다.
- 기존 `--draft-max/--draft-min` 등의 파라미터가 새로운 `--spec-draft-n-max/--spec-draft-n-min` 형식으로 변경되었습니다.
- Vulkan, CUDA, ROCm, OpenVINO 등 다양한 백엔드 및 최적화 옵션이 추가되어 하드웨어 호환성이 극대화되었습니다.
- macOS (Apple Silicon, Intel), Linux (다양한 아키텍처/GPU), Windows, Android 등 광범위한 플랫폼을 지원합니다.
docs: 추측 해독 (speculative decoding) 파라미터 재구조화 후 업데이트 (#22397, #22539)
문서 docs/speculative.md 를 PR #22397 에서 도입된 새로운 파라미터 명명 방식에 맞게 업데이트합니다:
--draft-max/--draft-min을--spec-draft-n-max/--spec-draft-n-min으로 교체--spec-ngram-size-n/m을 구현별 변형으로 변경- 모든 새로운
--spec-ngram-*-파라미터에 대한 문서를 추가 - 모든 예제 명령어를 업데이트
Assisted-by: llama.cpp:local pi
pi : GitHub 리소스를 gh CLI 를 사용하여 사용하는 규칙 추가
docs: llama-gen-docs 실행
arg: 오타 수정
macOS/iOS:
- macOS Apple Silicon (arm64)
- macOS Apple Silicon (arm64, KleidiAI 활성화됨)
- macOS Intel (x64)
- iOS XCFramework
Linux:
- Ubuntu x64 (CPU)
- Ubuntu arm64 (CPU)
- Ubuntu s390x (CPU)
- Ubuntu x64 (Vulkan)
- Ubuntu arm64 (Vulkan)
- Ubuntu x64 (ROCm 7.2)
- Ubuntu x64 (OpenVINO)
- Ubuntu x64 (SYCL FP32)
- Ubuntu x64 (SYCL FP16)
Android:
- Android arm64 (CPU)
Windows:
- Windows x64 (CPU)
- Windows arm64 (CPU)
- Windows x64 (CUDA 12) - CUDA 12.4 DLLs
- Windows x64 (CUDA 13) - CUDA 13.1 DLLs
- Windows x64 (Vulkan)
- Windows x64 (SYCL)
- Windows x64 (HIP)
openEuler:
- openEuler x86 (310p)
- openEuler x86 (910b, ACL Graph)
- openEuler aarch64 (310p)
- openEuler aarch64 (910b, ACL Graph)
AI 자동 생성 콘텐츠
본 콘텐츠는 llama.cpp Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기