Zenn헤드라인2026. 05. 08. 09:52

MTP（Multi-Token Prediction）の系譜とメカニズムを徹底解説

요약

본 기사는 대규모 언어 모델(LLMs)의 추론 속도 병목 현상을 해결하기 위한 핵심 기술인 MTP(Multi-Token Prediction)를 심층적으로 다룹니다. 기존 LLM은 토큰을 하나씩 순차적으로 생성하는 자기회귀적(Autoregressive) 방식을 사용하며, 이 과정에서 메모리 접근이 주된 속도 제한 요인(Memory-bound)으로 작용합니다. MTP는 이러한 한계를 극복하기 위해 '1 스텝 = 1 토큰' 방식에서 '1 스텝 = 다중 토큰 동시 예측 및 검증' 방식으로 패러다임을 전환하여, 추론의 효율성과 속도를 혁신적으로 향상시키는 방법을 설명합니다.

핵심 포인트

MTP는 LLMs의 근본적인 병목 현상인 메모리 접근(Memory-bound) 문제를 해결하는 핵심 최적화 기법이다.
기존 자기회귀 방식은 토큰을 하나씩 순차 생성하므로, 매 스텝마다 무거운 계산과 메모리 액세스를 반복해야 한다.
MTP는 여러 개의 예측 헤드와 검증 단계를 도입하여, 한 번의 연산으로 미래의 다중 토큰 후보를 동시에 생성하고 검증함으로써 속도를 높인다.
이 기술은 DeepSeek-V3 등 최신 모델 아키텍처에서도 핵심적으로 활용되고 있으며, MTP의 개념 자체는 2018년 Google 연구에서 그 기원을 찾을 수 있다.

0. はじめに：なぜこの記事を書いたのか

最近、界隈で噂になっているQwen 3.6 27B の Dense モデルを DGX Spark 環境で試してみました。しかし、実際に動かしてみるとどうしても推論スピードが遅く、実運用に向けてネックを感じていました。そこで高速化の手法を色々調べてみたところ、「MTP（Multi-Token Prediction）を組み込むと推論が速くなるらしい」という情報に行き着きました。

MTP といえば、大きな話題を呼んだ DeepSeek-V3 や R1などのモデルアーキテクチャでもコア技術として採用されています。本記事では、自分自身の学習と備忘録を兼ねて、この MTP（複数トークン予測）メソッドについて、関連する 3 つの重要論文を遡りながら、その前世から現在までを詳細に紐解いていきます。

業界の過去の探索から DeepSeek の最新アプローチまで、独自の解釈と詳細な技術解説を交えて深掘りしていきましょう。それでは本題に入ります。

1. なぜ MTP（Multi-Token Prediction）が必要なのか？

具体的な手法を学ぶ前に、そもそもなぜ我々は MTP を必要としているのでしょうか？その背景には、現代の大規模言語モデル（LLMs）が抱える構造的なボトルネックが存在します。

従来の自己回帰（Autoregressive）生成の課題

現在主流となっている LLM は、基本的に Decoder-only のアーキテクチャを採用しています。これは学習時も推論時も、シーケンスを生成するプロセスが「トークンバイトークン（1 つずつトークンを生成する）」であることを意味します。

推論フェーズにおいてトークンを 1 つ生成するたびに、モデルは以下の重い処理を繰り返す必要があります。

巨大なモデルパラメータのメモリからの読み込み
KV-Cache（過去のコンテキスト）のメモリアクセスと更新
全層にわたる完全な順伝播（Forward pass）計算

このような性質から、LLM の推論は計算律速（Compute-bound）ではなくメモリ律速（Memory-bound / 訪存密集型） のタスクとなります。計算リソース自体は余っていても、メモリからのデータ転送が追いつかないため、推論速度に厳しいキャップがかかってしまうのです。

MTP がもたらすブレイクスルー

MTP はこのトークンバイトークン生成のボトルネックを打破するための最適化アプローチの一つです。

**コアとなる思想：**デコード段階のプロセスを最適化し、「1 ステップ＝1 トークン」の生成から「1 ステップ＝複数トークンの同時生成」へとパラダイムを転換することで、学習と推論のパフォーマンスを劇的に向上させる。

具体的には以下のような利点があります。

**学習フェーズにおける効率化：**1 回の順伝播で未来の複数の位置のラベル（トークン）を同時に予測して学習するため、データサンプルからの情報抽出効率が大幅に向上します。また、モデルがより長期的な依存関係を強制的に学習させられるため、収束速度の向上と文脈理解の深化が期待できます。
**推論フェーズにおける高速化：**1 回のネットワーク実行で複数のトークン候補を生成し、それらを一括で検証（Verify）することで、メモリアクセスの回数を劇的に減らし、数倍規模の推論の高速化を実現します。

2. MTP 手法の歴史的探求

MTP の概念は決して DeepSeek で突然生まれたものではありません。過去の重要な研究を 2 つ振り返り、その進化の過程を理解しましょう。

2.1 Blockwise Parallel Decoding (Google, NIPS 2018)

最初の重要なマイルストーンは、Transformer が誕生した翌年の 2018 年に Google が発表した研究です。当時のモデル（BERT や GPT-1 など）はパラメータ数が 0.1B（1 億）程度でしたが、すでに推論の並列化に対するアプローチが考案されていました。

論文：Blockwise Parallel Decoding for Deep Autoregressive Models

余談ですが、2018 年は Transformer が登場したばかりで、当時のモデルは BERT や GPT-1 しかなく、モデルのパラメータ数もわずか 0.1B（約 1 億）程度でした。したがって、MTP の研究は大規模モデル時代の新しい産物というわけではなく、第一世代の Transformer ベースのモデルの時点ですでに該当する研究が行われていたと言えます。

自分自身もこの時期に初めて生成 AI を勉強を始めたので、よく覚えてますね。

この手法は主に推論フェーズの加速に焦点を当てています。アーキテクチャの概要は以下の通りです。

【ネットワーク構造】

메인 네트워크: 사전 학습된 Decoder-only Transformer입니다. 최종적으로 은닉 상태의 차원을 갖는 로짓을 출력합니다.

멀티헤드 구조: 메인 네트워크 위에 여러 개의 예측 헤드 ( )가 연결됩니다. \text{Head}_1, \text{Head}_2, \dots, \text{Head}_k 는 다음 토큰 (next token) 을, \text{Head}_1 은 그 다음 토큰 (next next token) 을 예측합니다. \text{Head}_2 -

각 헤드의 상세:- 공통의 FFN(Feed-Forward Network) 레이어에서 차원을 확대(

). h \to 4h - 각 헤드 고유 (비공유) 의 FFN 레이어에서 차원을 원래로 되돌립니다(
). 이 결과와 원래 로짓을 4h \to h **잔차 연결 (Residual Connection)**으로 더합니다. - 마지막으로 공유 어휘 투영 레이어 (Vocabulary Projection: 선형 변환 + Softmax) 를 통해 확률 분포를 출력합니다.

공통의 FFN(Feed-Forward Network) 레이어에서 차원을 확대(
)

【추론 프로세스의 3 단계】

이 아키텍처를 활용한 병렬 추론은 다음과 같은 3 단계로 진행됩니다.

Predict (예측): 개별 개의 병렬 헤드를 사용하여 미래의 k 개의 토큰을 한 번의 계산으로 즉시 생성합니다. k -
Verify (검증): 생성된 k 개의 토큰을 원래 시퀀스에 연결하고, k 개의 "입력과 정답 레이블의 쌍"을 만듭니다. 이를 배치로 메인 네트워크 (정확히는 k )에 한 번에 입력하여, 생성된 토큰이 자기회귀적인 정답과 일치하는지를 병렬로 검증합니다. \text{Head}_1 -
Accept (수용): 검증 결과, 정답과 연속하여 일치하는 가장 긴 k' 개의 토큰을 채택 (Accept) 합니다.

【얼마나 빨라질까?】

생성하려는 시퀀스 길이를

전통적인 생성: m 단계의 계산이 필요합니다. -
이 방법: 각 토큰마다 "Predict(1 단계)"과 "Verify(1 병렬 단계)"를 실행하므로, 총 k 단계. 2m/k - 만약
이라면, k=4 가 되며, m \to 0.5m 추론 속도가 2 배가 됩니다.

또한 논문에서는, 단계 (

2.2 Meta 의 MTP (Meta, 2024)

다음으로 소개할 것은 더 현대적인 LLM의 맥락에서 재평가된 Meta 연구입니다.

논문: Better & Faster Large Language Models via Multi-token Prediction

【모티ベーション의 진화】

Google 의 연구가 "추론의 고속화"를 주眼으로 했다면, Meta 의 연구는 "학습 단계에서의 모델 표현력 향상과 수렴 가속

생성된 입력을 각 깊이 고유의 Transformer 모듈 $h'^k_i$ 에 통과시켜 출력 $ ext{TRM}k$ 를 얻습니다. $h^k_i h^k{1:T-k} = \text{TRM}k(h'^k{1:T-k})$ 【添字】의 설명 1:T-k

이 슬라이스의 의미는 매우 중요합니다. 시퀀스의 전체 길이를 $T$ 라고 합시다. 깊이 $T$ 의 모듈은 "현재 위치 $k$ 에서 $i$ 개 앞선 토큰"을 예측하는 역할을 합니다. 즉, 예측 대상 인덱스는 $k+i$ 입니다.

시퀀스의 최대 길이는 $T$ 이므로 $i+k \le T$ 를 만족해야 합니다. 이를 변형하면 $i \le T-k$ 가 됩니다. 따라서 깊이 $i \le T-k$ 의 모듈이 처리할 수 있는 입력 토큰의 유효 범위는 $k$ 에서 1 까지입니다.

어휘 분포의 출력 (Eq. 23)：

마지막으로, 모든 MTP 모듈에서 공유되는 출력 투영층 $ ext{OutHead}$ 을 통과하여 어휘 크기 $ ext{OutHead}$ 의 확률 분포 $V$ 를 계산합니다. $P^k_{i+k+1} = \text{OutHead}(h^k_i)$ 여기서 예측하는 것은 입력

$k+1$

【과거 방법과의 결정적 차이: 인과 연쇄와 잔차 연결】

과거의 방법 (병렬 독립 헤드) 과는 달리, DeepSeek 의 MTP 는 직렬 (Sequential) 으로 모듈이 연결되어 있습니다. 깊이

3.2 MTP 모델의 학습 프로세스

각 MTP 모듈의 예측 결과는 표준적인 Cross Entropy Loss 를 사용하여 평가됩니다.

【Teacher Forcing (교사 강제) 에 의한 학습】

여기서 독자 여러분은 하나의 의문을 품을 수 있습니다.

"인과 연쇄의 구조에서, 미래 토큰을 예측하기 위해 왜 정답 토큰 (Ground Truth) 의 Embedding 을 입력으로 사용하는지? (Eq 21 의"

이는 기계 학습에서의 "Teacher Forcing (교사 강제)" 라는 전형적인 최적화 기법입니다.

만약, 깊이

3.3 MTP 모델의 추론 프로세스

DeepSeek V3 논문에서는, MTP 설계의 주시는あくまで "학습 단계에서의 수렴 가속 및 샘플 효율 최대화" 에 있다고 강조합니다. 그러나 구축된 정교한 MTP 모듈 군은, 추론 시간에도 강력한 무기입니다.

DeepSeek 의 추론 구현에는 주로 2 가지 접근법이 존재합니다.

방법 1: MTP 모듈의 분리 (표준 추론)

학습 완료 후, 추가적인 MTP 헤드를 모두 제거하고 순수한 "Next Token Prediction" 을 수행하는 메인 모델만 배포합니다. 이 경우, 추론 가속 효과는 없으나, MTP 의 강력한 학습 신호에 의해鍛えられた 고품질 메인 모델의 혜택을, 추가 계산 비용 없이 받을 수 있습니다.

방법 2: 자기 투사적 디코딩 (Self-speculative Decoding)

MTP 모듈을 유지하고, 추론 가속기로 활용합니다. 이는 제 2 장에서 소개한 Blockwise Parallel Decoding 에似た 접근법입니다.

외부 작은 드라프트 모델을 준비하는 전통적인 Speculative Decoding 과는 달리, 자신의 MTP 모듈을 사용하여 드라프트 토큰을 생성합니다. 학습 시간과는 달리 정답 라벨이 존재하지 않으므로, 여기서는 "Free-running (자기 회귀적인 자기 출력을 다음 입력으로)" 모드로 동작시킵니다.

동일한 백본의 잠재 공간 (Latent Space) 을 공유하므로, 외부 모델을 호출하는 것보다 수용률 (Acceptance Rate) 이 높고, 효율적으로 여러 토큰의 고속 생성이 가능합니다.

4. まとめ

본 기사에서는, 다중 토큰 예측 (MTP) 의 기술에 대해, Google 의 초기 추론 병렬화 접근법에서, Meta 의 학습 효율화 연구, 그리고 DeepSeek V3 에서 정교한 인과 연쇄 (Causal Chain) 를 도입한 최신 구현까지를 포괄적으로 설명했습니다.

DeepSeek 의 MTP 구현은 과거 연구의 "추론 병렬화" 와 "학습 단계의 풍부한 기울기 신호" 라는 두 가지의 장점을 완벽하게 통합하여, Teacher Forcing 에 의한 안정적인 학습 설계와 자기 투사적 디코딩에 의한 추론 최적화를 달성했습니다. LLM 의 효율화가 최우선 과제인 현재, 이 MTP 아키텍처는 향후 표준적인 패러다임이 될 가능성을秘めています.

참고문헌

DeepSeek-V3 Technical Report (DeepSeek)
Blockwise Parallel Decoding for Deep Autoregressive Models (Stern et al., NIPS 2018)
Better & Faster Large Language Models via Multi-token Prediction (Qi et al., ICLR 2024)
EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty (Li et al., 2024)

AI 자동 생성 콘텐츠

원문 바로가기