본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 06. 04:31

Gemma 4 MTP 모델 출시

요약

Google은 Gemma 4 모델의 성능을 극대화하기 위해 멀티 토큰 예측(MTP) 드래프트 모델을 출시했습니다. MTP는 기본 모델을 더 작고 빠른 드래프트 모델로 확장하여, Speculative Decoding 파이프라인에서 사용됩니다. 이 기술은 드래프트 모델이 여러 토큰을 미리 예측하고 타겟 모델이 이를 병렬로 검증함으로써, 표준 생성과 동일한 품질을 유지하면서 디코딩 속도를 최대 2배까지 향상시킵니다.

핵심 포인트

  • MTP(Multi-Token Prediction)는 Gemma 4의 성능 최적화를 위한 새로운 기술입니다.
  • 드래프트 모델은 기본 모델보다 작고 빨라 Speculative Decoding 파이프라인에 사용됩니다.
  • Speculative Decoding을 통해 디코딩 속도를 최대 2배까지 향상시킬 수 있습니다.
  • MTP 드래프트 모델은 저지연 및 온디바이스 애플리케이션에 특히 적합합니다.

블로그 포스트:

https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

MTP 드래프트 모델:

https://huggingface.co/google/gemma-4-31B-it-assistant

https://huggingface.co/google/gemma-4-26B-A4B-it-assistant

https://huggingface.co/google/gemma-4-E4B-it-assistant

https://huggingface.co/google/gemma-4-E2B-it-assistant

*이 모델 카드는 Gemma 4 모델용 멀티 토큰 예측 (MTP) 드래프트를 위한 것입니다. MTP 는 기본 모델을 더 작고 빠른 드래프트 모델로 확장하여 구현되었습니다. Speculative Decoding 파이프라인에서 사용할 때, 드래프트 모델은 여러 토큰을 앞서 예측하고, 타겟 모델이 병렬로 검증합니다. 이는 표준 생성과 동일한 품질을 보장하면서 상당한 디코딩 속도 향상 (최대 2 배) 을 가져옵니다. 따라서 이러한 체크포인트는 저 지연 및 온 디바이스 애플리케이션에 이상적입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0