Multi-Token Prediction (MTP) for LLaMA.cpp - Gemma 4 speedup by 40%

요약

LLaMA.cpp에 Multi-Token Prediction (MTP) 기능을 구현하여 대규모 언어 모델(LLM)의 추론 속도를 향상시켰습니다. 이 개선 사항을 Gemma 4 assistant 모델에 적용한 결과, MacBook Pro M5Max 환경에서 드래프트 토큰 처리 속도가 약 40% 빨라지는 성능 향상을 확인했습니다.

핵심 포인트

LLaMA.cpp에 Multi-Token Prediction (MTP) 기능을 추가하여 LLM 추론 효율성을 높였습니다.
Gemma 4 assistant 모델을 GGUF 형식으로 양자화하여 사용 가능하게 했습니다.
실제 테스트 결과, MTP 적용 시 드래프트 토큰 처리 속도가 기존 대비 약 40% 향상되었습니다 (97 tokens/s $\rightarrow$ 138 tokens/s).
개선된 코드는 패치된 llama.cpp와 전용 앱을 통해 제공됩니다.

LLaMA.cpp 에 Multi-Token Prediction 을 구현했습니다.

Gemma 4 assistant 모델을 GGUF 형식으로 양자화했습니다.

MacBook Pro M5Max 에서 테스트를 수행했습니다. Gemma 26B 는 MTP 를 통해 드래프트 토큰 처리 속도가 40% 빨라졌습니다.

프롬프트: 재귀를 사용하여 n 번째 피보나치 수를 찾는 Python 프로그램을 작성하세요

출력:
LLaMA.cpp: 97 tokens/s
LLaMA.cpp + MTP: 138 tokens/s

Gemma4-assistant GGUF 양자화 모델: https://huggingface.co/collections/AtomicChat/gemma-4-assistant-gguf

Local AI models 앱: http://atomic.chat

Patched llama.cpp: https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant

AI 자동 생성 콘텐츠

원문 바로가기

Multi-Token Prediction (MTP) for LLaMA.cpp - Gemma 4 speedup by 40%

요약

핵심 포인트

댓글