본문으로 건너뛰기

© 2026 Molayo

llama.cpp헤드라인2026. 05. 20. 12:06

llama : MTP 정리 ( #23269 ) lama : 부분 롤백 (partial rollback)이 있는 순환 메모리 (recurrent

요약

llama.cpp 프로젝트의 MTP(Multi-Token Prediction) 및 투기적 디코딩(Speculative Decoding) 관련 기술적 업데이트 사항을 정리한 내용입니다. 순환 메모리(Recurrent Memory)의 부분 롤백 기능 개선, ngram 및 초안(draft) 설정 최적화, 그리고 다양한 운영체제 및 하드웨어 가속을 위한 빌드 지원 범위 확대를 포함합니다.

핵심 포인트

  • MTP(Multi-Token Prediction) 초안과 p-min 재활성화 및 ngram 재활성화 적용
  • 투기적 디코딩(Speculative Decoding)의 수락 로직 및 파라미터(ngram-map, rejection threshold) 최적화
  • 토큰 및 임베딩 배치의 재사용 로직 수정 및 파라미터 로그 기록 강화
  • macOS, Linux, Windows, Android, openEuler 등 다양한 플랫폼 및 가속 라이브러리(CUDA, Vulkan, ROCm, OpenVINO 등) 지원 업데이트
  • 사용되지 않는 옵션 제거 및 CLI 인자 문서 업데이트를 통한 인터페이스 정비

llama : MTP 정리 ( #23269 )
lama : 부분 롤백 (partial rollback)이 있는 순환 메모리 (recurrent memory)에 대해 동일 분할 (equal splits) 비활성화
spec : MTP 초안 (MTP drafts)과 함께 p-min 재활성화
spec : RS 롤백 (RS rollback)과 결합된 ngram 재활성화
spec : ngram-map-* 파라미터 수정
spec : 결합된 ngram + 초안 (draft) 설정에서의 수락 로직 (acceptance logic) 수정
graph : 결합된 토큰 (token) + 임베딩 (embd) 배치 (batches)의 재사용 수정
spec : 각 투기적 구현 (speculative implementation)에 대한 파라미터 로그 기록
각 생성자 (constructor)에 구현 유형 및 파라미터와 함께 LOG_INF 추가
device 문자열 추출 로직을 common_speculative_get_devices_str()로 이동
'adding speculative implementation' 로그를 init에서 생성자로 이동
Assisted-by: llama.cpp:local pi
spec : ngram-map-k4v를 사용하여 --spec-default 확장
Assisted-by: llama.cpp:local pi
minor : n_embd 로그 인자 수정
update draft.n_max == 3 + regen docs
spec : ngram-mod 거부 임계값 (rejection thold)을 5 @ 0.25로 완화
logs : 문서 개선
update speculative decoding CLI 인자 문서 업데이트
누락된 초안 모델 (draft model) CPU 스케줄링 및 텐서 오버라이드 (tensor override) 파라미터 추가
--spec-type을 사용 가능한 모든 유형을 포함하도록 업데이트 (draft-eagle3 WIP 제외)
구현과 일치하도록 기본값 수정 (n_max=3, n_min=0, p_min=0.0)
더 이상 사용되지 않는 옵션 제거 (spec-draft-ctx-size, spec-draft-replace)
새로운 파라미터를 위한 환경 변수 추가
Assisted-by: llama.cpp:local pi
arg : 기본 spec 설정에 k4v를 추가할 때 step-back 적용
cont : 이름 수정
macOS/iOS: macOS Apple Silicon (arm64)
macOS Apple Silicon (arm64, KleidiAI 활성화)
macOS Intel (x64)
iOS XCFramework
Linux: Ubuntu x64 (CPU)
Ubuntu arm64 (CPU)
Ubuntu s390x (CPU)
Ubuntu x64 (Vulkan)
Ubuntu arm64 (Vulkan)
Ubuntu x64 (ROCm 7.2)
Ubuntu x64 (OpenVINO)
Ubuntu x64 (SYCL FP32)
Ubuntu x64 (SYCL FP16)
Android: Android arm64 (CPU)
Windows: Windows x64 (CPU)
Windows arm64 (CPU)
Windows x64 (CUDA 12) - CUDA 12.4 DLLs
Windows x64 (CUDA 13) - CUDA 13.1 DLLs
Windows x64 (Vulkan)
Windows x64 (SYCL)
Windows x64 (HIP)
openEuler: openEuler x86 (310p)
openEuler x86 (910b, ACL Graph)
openEuler aarch64 (310p)
openEuler

aarch64 (910b, ACL Graph)

AI 자동 생성 콘텐츠

본 콘텐츠는 llama.cpp Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0