본문으로 건너뛰기

© 2026 Molayo

llama.cpp헤드라인2026. 06. 15. 03:58

spec: EAGLE3 투기적 디코딩 (speculative decoding) 지원 추가 ([#18039](https://github.com/g

요약

llama.cpp 프로젝트에 EAGLE3 투기적 디코딩(speculative decoding) 지원이 추가되었습니다. 이번 업데이트를 통해 Gemma4 모델에 대한 EAGLE3 지원과 함께 다양한 파라미터 버그 수정 및 아키텍처 최적화가 이루어졌습니다.

핵심 포인트

  • EAGLE3 투기적 디코딩 지원 추가
  • RedHatAI의 Gemma4 모델에 대한 EAGLE3 지원
  • 레이어 입력 추출 및 어휘 매핑 관련 버그 수정
  • llama.cpp 내부 API 및 파라미터 구조 최적화

spec: EAGLE3 투기적 디코딩 (speculative decoding) 지원 추가 (#18039)

  • llama : 레이어 입력 추출 (layer input extraction) 활성화

  • spec: eagle3 지원

  • eagle3: 파라미터 버그 수정

  • eagle3: RedHatAI의 Gemma4 eagle3 지원

  • eagle3: 타겟에서 피처(features)를 가져올 때 동기화(sync) 설정

Co-authored-by: tnhnyzc 115956684+tnhnyzc@users.noreply.github.com

  • eagle3 : embd_layer_inp 추출 및 인코더(encoder)에서의 ubatch 처리 수정

Co-authored-by: Doğaç Eldenk dogacel@gmail.com

  • eagle3: 업스트림(upstream) 변경 사항에 적응

  • eagle3: 리베이스(rebase) 문제 수정 및 업스트림 변경 사항에 적응

  • eagle3: test-llama-archs에서 eagle3 아키텍처 제외

  • eagle3: editorconfig 체크 실패 수정

  • eagle3: d2t 어휘 매핑(vocab mapping)의 멀티 시퀀스(multi-seq) 문제 수정

  • cont : 사소한 스타일 / 정리

  • spec : common_speculative_setup_draft_model() 제거

  • llama : 사용하지 않는 API 정리

  • eagle3: 디코드 그래프(decode graph)에서 d2t 어휘 매핑 설정

  • cont : 레이어 입력이 구성되었는지 확인하는 단언문(assert) 추가

  • hparams : n_embd_target_features 대신 n_embd_inp 사용

  • eagle3: output.weight를 선택 사항으로 만들고 필요 시 타겟 모델로부터 상속

  • haparams : 일반적인 norm-before-residual 파라미터

  • llama-ext : 일관된 이름

  • cont : 수정

  • hparams : target_hidden_size 제거

  • cparams : output_layer_inp -> embeddings_layer_inp로 이름 변경

  • arch : 새로운 hidden norm을 추가하는 대신 ATTN_NORM_2 재사용

  • llama : 이름 정리

  • cont : 단언문(assert) + 주석 추가

  • conversion/llama.py 업데이트

Co-authored-by: Sigbjørn Skjæret sigbjorn.skjaeret@scala.com

공동 작성자(Co-authored-by): Georgi Gerganov ggerganov@gmail.com
공동 작성자(Co-authored-by): tnhnyzc 115956684+tnhnyzc@users.noreply.github.com
공동 작성자(Co-authored-by): Doğaç Eldenk dogacel@gmail.com
공동 작성자(Co-authored-by): Sigbjørn Skjæret sigbjorn.skjaeret@scala.com

macOS/iOS:

Linux:

Android:

Android:

Windows:

openEuler:

  • 비활성화됨
  • openEuler x86 (310p)
  • openEuler x86 (910b, ACL Graph)
  • openEuler aarch64 (310p)
  • openEuler aarch64 (910b, ACL Graph)

UI:

AI 자동 생성 콘텐츠

본 콘텐츠는 llama.cpp Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0