spec: EAGLE3 투기적 디코딩 (speculative decoding) 지원 추가 ([#18039](https://github.com/g
요약
llama.cpp 프로젝트에 EAGLE3 투기적 디코딩(speculative decoding) 지원이 추가되었습니다. 이번 업데이트를 통해 Gemma4 모델에 대한 EAGLE3 지원과 함께 다양한 파라미터 버그 수정 및 아키텍처 최적화가 이루어졌습니다.
핵심 포인트
- EAGLE3 투기적 디코딩 지원 추가
- RedHatAI의 Gemma4 모델에 대한 EAGLE3 지원
- 레이어 입력 추출 및 어휘 매핑 관련 버그 수정
- llama.cpp 내부 API 및 파라미터 구조 최적화
spec: EAGLE3 투기적 디코딩 (speculative decoding) 지원 추가 (#18039)
-
llama : 레이어 입력 추출 (layer input extraction) 활성화
-
spec: eagle3 지원
-
eagle3: 파라미터 버그 수정
-
eagle3: RedHatAI의 Gemma4 eagle3 지원
-
eagle3: 타겟에서 피처(features)를 가져올 때 동기화(sync) 설정
Co-authored-by: tnhnyzc 115956684+tnhnyzc@users.noreply.github.com
- eagle3 : embd_layer_inp 추출 및 인코더(encoder)에서의 ubatch 처리 수정
Co-authored-by: Doğaç Eldenk dogacel@gmail.com
-
eagle3: 업스트림(upstream) 변경 사항에 적응
-
eagle3: 리베이스(rebase) 문제 수정 및 업스트림 변경 사항에 적응
-
eagle3: test-llama-archs에서 eagle3 아키텍처 제외
-
eagle3: editorconfig 체크 실패 수정
-
eagle3: d2t 어휘 매핑(vocab mapping)의 멀티 시퀀스(multi-seq) 문제 수정
-
cont : 사소한 스타일 / 정리
-
spec :
common_speculative_setup_draft_model()제거 -
llama : 사용하지 않는 API 정리
-
eagle3: 디코드 그래프(decode graph)에서 d2t 어휘 매핑 설정
-
cont : 레이어 입력이 구성되었는지 확인하는 단언문(assert) 추가
-
hparams : n_embd_target_features 대신 n_embd_inp 사용
-
eagle3: output.weight를 선택 사항으로 만들고 필요 시 타겟 모델로부터 상속
-
haparams : 일반적인 norm-before-residual 파라미터
-
llama-ext : 일관된 이름
-
cont : 수정
-
hparams : target_hidden_size 제거
-
cparams : output_layer_inp -> embeddings_layer_inp로 이름 변경
-
arch : 새로운 hidden norm을 추가하는 대신 ATTN_NORM_2 재사용
-
llama : 이름 정리
-
cont : 단언문(assert) + 주석 추가
-
conversion/llama.py 업데이트
Co-authored-by: Sigbjørn Skjæret sigbjorn.skjaeret@scala.com
공동 작성자(Co-authored-by): Georgi Gerganov ggerganov@gmail.com
공동 작성자(Co-authored-by): tnhnyzc 115956684+tnhnyzc@users.noreply.github.com
공동 작성자(Co-authored-by): Doğaç Eldenk dogacel@gmail.com
공동 작성자(Co-authored-by): Sigbjørn Skjæret sigbjorn.skjaeret@scala.com
macOS/iOS:
- macOS Apple Silicon (arm64)
- macOS Apple Silicon (arm64, KleidiAI 활성화) 비활성화됨
- macOS Intel (x64)
- iOS XCFramework
Linux:
- Ubuntu x64 (CPU)
- Ubuntu arm64 (CPU)
- Ubuntu s390x (CPU)
- Ubuntu x64 (Vulkan)
- Ubuntu arm64 (Vulkan)
- Ubuntu x64 (ROCm 7.2)
- Ubuntu x64 (OpenVINO)
- Ubuntu x64 (SYCL FP32) 비활성화됨
Android:
Android:
Windows:
- Windows x64 (CPU)
- Windows arm64 (CPU)
- Windows x64 (CUDA 12) - CUDA 12.4 DLLs
- Windows x64 (CUDA 13) - CUDA 13.3 DLLs
- Windows x64 (Vulkan)
- Windows x64 (SYCL) 비활성화됨
- Windows x64 (HIP)
openEuler:
- 비활성화됨
- openEuler x86 (310p)
- openEuler x86 (910b, ACL Graph)
- openEuler aarch64 (310p)
- openEuler aarch64 (910b, ACL Graph)
UI:
AI 자동 생성 콘텐츠
본 콘텐츠는 llama.cpp Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기