Multi-Token Prediction (MTP) for LLaMA.cpp - Gemma 4 speedup by 40%
요약
LLaMA.cpp에 Multi-Token Prediction (MTP) 기능을 구현하여 대규모 언어 모델(LLM)의 추론 속도를 향상시켰습니다. 이 개선 사항을 Gemma 4 assistant 모델에 적용한 결과, MacBook Pro M5Max 환경에서 드래프트 토큰 처리 속도가 약 40% 빨라지는 성능 향상을 확인했습니다.
핵심 포인트
- LLaMA.cpp에 Multi-Token Prediction (MTP) 기능을 추가하여 LLM 추론 효율성을 높였습니다.
- Gemma 4 assistant 모델을 GGUF 형식으로 양자화하여 사용 가능하게 했습니다.
- 실제 테스트 결과, MTP 적용 시 드래프트 토큰 처리 속도가 기존 대비 약 40% 향상되었습니다 (97 tokens/s $\rightarrow$ 138 tokens/s).
- 개선된 코드는 패치된 llama.cpp와 전용 앱을 통해 제공됩니다.
LLaMA.cpp 에 Multi-Token Prediction 을 구현했습니다.
Gemma 4 assistant 모델을 GGUF 형식으로 양자화했습니다.
MacBook Pro M5Max 에서 테스트를 수행했습니다. Gemma 26B 는 MTP 를 통해 드래프트 토큰 처리 속도가 40% 빨라졌습니다.
프롬프트: 재귀를 사용하여 n 번째 피보나치 수를 찾는 Python 프로그램을 작성하세요
출력:
LLaMA.cpp: 97 tokens/s
LLaMA.cpp + MTP: 138 tokens/s
Gemma4-assistant GGUF 양자화 모델: https://huggingface.co/collections/AtomicChat/gemma-4-assistant-gguf
Local AI models 앱: http://atomic.chat
Patched llama.cpp: https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기