DeepSeek-V3: 2026년에 로컬에서 실행 가능한 671B MoE 모델

요약 (TL;DR Summary)

DeepSeek-V3는 토큰당 37B 파라미터만 활성화되는 671B 파라미터 Mixture-of-Experts (MoE) 모델로, 벤치마크에서 GPT-4o 및 Claude 3.5 Sonnet과 경쟁합니다.
혁신적인 FP8 혼합 정밀도 (mixed precision)를 사용하여 14.8조 개의 토큰으로 학습되었으며, 복구 불가능한 손실 스파이크 (loss spikes) 없이 전체 사전 학습 (pre-training)에 단 2.664M H800 GPU 시간만을 사용했습니다.
104k GitHub stars, MIT 라이선스, 상업적 이용 가능 — Hugging Face에서 오픈 웨이트 (open weights) 제공 가능
8개의 추론 백엔드 (inference backends) 지원: SGLang, LMDeploy, TensorRT-LLM, vLLM, LightLLM, AMD GPU, Huawei Ascend NPU 및 레퍼런스 데모
DeepSeek-R1 추론 모델로부터 V3로 지식 증류 (Knowledge distilled)되어, 출력 스타일 제어를 유지하면서 추론 능력을 향상시켰습니다.

직접 답변 블록 (Direct Answer Block)
DeepSeek-V3는 256개의 전문가 (experts) 중 순전파 (forward pass)당 8개가 활성화되는 방식을 사용하여, 토큰당 37B 파라미터만 활성화하는 671B 파라미터 Mixture-of-Experts 언어 모델입니다. 이는 오픈 소스이며 (MIT 코드 라이선스, 웨이트에 대한 모델 합의), 상업적으로 사용 가능하며, NVIDIA 및 AMD GPU 모두에서 SGLang, vLLM, TensorRT-LLM을 포함한 8개의 추론 백엔드를 통해 로컬에 배포할 수 있습니다.

서론 (Introduction)
AI 모델 시장에는 추악한 비밀이 있습니다. 대부분의 프런티어 모델 (frontier models)은 사용자가 API 구독, 벤더 인프라, 그리고 사용량에 따라 증가하는 토큰당 가격 책정에 묶이도록 만듭니다. DeepSeek-V3는 그 모델을 — 말 그대로 그리고 상업적으로 — 깨뜨립니다. 이는 토큰당 37B 파라미터만 활성화하는 671B 파라미터 Mixture-of-Experts 아키텍처로, 자체 하드웨어에 배포할 수 있을 만큼 효율적입니다. 104k GitHub stars, GPT-4o 및 Claude 3.5 Sonnet과 경쟁하는 벤치마크 점수, 그리고 MIT 라이선스 코드를 갖춘 이 모델은 2026년 오픈 소스 AI가 달성할 수 있는 최첨단을 나타냅니다.

DeepSeek-V3의 Mixture-of-Experts 아키텍처는 어떻게 671B 파라미터 중 토큰당 37B만 활성화하나요?
DeepSeek-V3는 Mixture-of-Experts (MoE) 아키텍처에서 토큰당 8개가 활성화되는 256개의 전문가를 사용합니다.

이는 특정 토큰 예측 시 전체 671B 파라미터 중 37B만 활성화됨을 의미하며, 활성화 비율은 5.5%에 불과합니다. 이 아키텍처는 DeepSeek-V2에서 검증된 두 가지 혁신 기술을 기반으로 구축되었습니다: Multi-head Latent Attention (MLA). MLA는 Key-Value 캐시를 저차원 잠재 공간 (low-dimensional latent space)으로 압축하여 추론 (inference) 중 메모리 사용량을 획기적으로 줄여줍니다. 이것이 128K 컨텍스트 창 (context window)을 실용적으로 만드는 핵심입니다. 표준 어텐션 (standard attention) 방식이라면 이 정도 규모에서 감당하기 어려운 수준의 KV-캐시 메모리가 필요했을 것입니다. Auxiliary-loss-free load balancing (보조 손실 없는 부하 분산). 전통적인 MoE 모델들은 전문가 활용의 균형을 맞추기 위해 보조 손실 (auxiliary loss) 항을 사용하지만, 이는 부하 분산과 모델 품질 사이의 트레이드오프 (tradeoff)를 발생시킵니다. DeepSeek-V3는 성능 저하 없이 부하 분산을 달성하는 전략을 개척했습니다. 이 모델은 보조 손실이 부과하는 품질 저하 없이 전문가들에게 토큰을 자연스럽게 분산하도록 학습됩니다. DeepSeek-V3 기술 보고서 (arXiv:2412.19437)에 따르면: "우리는 부하 분산을 장려할 때 발생하는 성능 저하를 최소화하는, 보조 손실 없는 부하 분산 전략을 개척했습니다." Multi-Token Prediction (MTP). DeepSeek-V3는 멀티 토큰 예측 (multi-token prediction) 목표로 학습됩니다. 즉, 단순히 다음 토큰 하나만을 예측하는 것이 아니라 각 위치에서 미래의 여러 토큰을 동시에 예측합니다. 이는 모델의 품질을 향상시키며, 추론 시 생성 속도를 높이기 위한 추측적 디코딩 (speculative decoding)에 사용될 수 있습니다. MTP 모듈의 가중치는 671B 메인 모델에 14B 파라미터를 추가합니다 (Hugging Face 기준 총 685B). 다만 MTP 지원은 현재 커뮤니티에서 활발히 개발 중입니다. 학습 과정은 놀라울 정도로 안정적이었습니다: "전체 학습 과정 동안, 복구 불가능한 손실 급증 (loss spikes)을 경험하거나 롤백 (rollback)을 수행한 적이 없습니다." 이는 이 정도 규모의 모델에서는 이례적인 일이며, FP8 학습 프레임워크의 품질을 입증합니다. FP8 혼합 정밀도 (mixed precision) 학습은 어떻게 작동하며, 왜 손실 급증 없이 2.664M GPU 시간이 소요되었을까요?

FP8 (8-bit floating point) 학습은 업계 표준인 BF16/FP16 방식에서 크게 벗어난 방식입니다. 논문에 따르면, DeepSeek-V3는 FP8 학습의 타당성과 효과를 검증한 최초의 초거대 규모 모델입니다. 주요 혁신 사항은 다음과 같습니다:

FP8 혼합 정밀도 (mixed precision) 프레임워크: 모든 연산에 FP8을 사용하는 것은 아닙니다. 이 프레임워크는 정밀도 손실이 최소화되는 행렬 곱셈 (matrix multiplications) 및 어텐션 연산 (attention computations)에 FP8을 선택적으로 적용하는 한편, 민감한 연산 (정규화 (normalization), softmax))은 더 높은 정밀도로 유지합니다. 이를 통해 FP16의 안정성을 유지하면서 FP8의 속도를 달성합니다.
완전한 연산-통신 중첩 (Full computation-communication overlap): 노드 간 MoE 학습 시, 노드 사이의 통신 병목 현상으로 인해 GPU가 유휴 상태(idle)로 남는 경우가 많습니다. DeepSeek-V3는 알고리즘, 프레임워크 및 하드웨어를 공동 설계하여 거의 완전한 중첩을 달성했습니다. 즉, 통신이 일어나는 동안 연산이 계속 진행되어 효율성을 극적으로 향상시킵니다.

"알고리즘, 프레임워크 및 하드웨어의 공동 설계를 통해, 우리는 노드 간 MoE 학습에서의 통신 병목 현상을 극복하고 거의 완전한 연산-통신 중첩을 달성했습니다." — DeepSeek-V3 기술 보고서 (Technical Report)

14.8T 토큰에 대해 2.664M H800 GPU 시간이 소요된 전체 사전 학습 (pre-training) 비용은 이 정도 역량을 가진 모델치고는 놀라울 정도로 경제적입니다. 참고로, 이는 유사한 폐쇄형 프런티어 모델 (closed-source frontier models)의 추정 학습 비용의 약 1/10에서 1/20 수준입니다. 이후의 미세 조정 (fine-tuning) 단계 (SFT + RL)에는 단 0.1M GPU 시간만이 추가로 필요했습니다.

DeepSeek-V3는 코드, 수학 및 추론 벤치마크에서 GPT-4o, Claude 3.5 Sonnet, 그리고 LLaMA 3.1 405B와 비교했을 때 어떠할까요? DeepSeek-V3는 오픈 소스 모델들을 압도하며, 폐쇄형 프런티어 모델들과도 경쟁할 만한 수준입니다.

공개된 벤치마크 (Benchmark) 표에서 확인할 수 있는 주요 비교 결과는 다음과 같습니다.

코드 벤치마크 (Code benchmarks)

벤치마크 (Benchmark)	DeepSeek-V3	GPT-4o	Claude 3.5 Sonnet	LLaMA 3.1 405B
HumanEval-Mul (Pass@1)	82.6	80.5	81.7	77.2
LiveCodeBench (Pass@1)	37.6	34.2	32.8	30.1
Codeforces (Percentile)	51.6	23.6	20.3	25.3
SWE Verified (Resolved)	42.0	38.8	50.8	24.5
Aider-Polyglot (Acc.)	49.6	16.0	45.3	5.8

DeepSeek-V3는 가장 강력한 오픈 소스 코딩 모델이며, 경쟁 프로그래밍 벤치마크 (Codeforces 백분위: 51.6 대 GPT-4o의 23.6)에서 앞서고 있습니다.

수학 벤치마크 (Math benchmarks)

벤치마크 (Benchmark)	DeepSeek-V3	GPT-4o	Claude 3.5 Sonnet	LLaMA 3.1 405B
AIME 2024 (Pass@1)	39.2	9.3	16.0	23.3
MATH-500 (EM)	90.2	74.6	78.3	73.8
CNMO 2024 (Pass@1)	43.2	10.8	13.1	6.8

DeepSeek-V3는 수학 분야에서 차원이 다른 수준을 보여줍니다. AIME 격차(39.2 대 GPT-4o의 9.3)는 4배의 향상을 의미합니다. 이는 주로 DeepSeek-R1의 긴 사고 사슬 (Chain-of-Thought, CoT) 추론으로부터 이루어진 지식 증류 (Knowledge Distillation) 덕분입니다.

일반 벤치마크 (General benchmarks)

벤치마크 (Benchmark)	DeepSeek-V3	GPT-4o	Claude 3.5 Sonnet
MMLU (EM)	88.5	87.2	88.3
MMLU-Redux (EM)	89.1	88.0	88.9
DROP (3-shot F1)	91.6	83.7	88.3
GPQA-Diamond (Pass@1)	59.1	49.9	65.0

표준 학술 벤치마크에서 DeepSeek-V3는 대부분의 카테고리에서 선두를 차지하거나 동등한 수준을 유지합니다. Claude 3.5 Sonnet은 GPQA-Diamond (대학원 수준의 추론)에서 우위를 점하고 있습니다. 개방형 생성 (Arena-Hard: 85.5, AlpacaEval 2.0: 70.0)에서는 DeepSeek-V3가 비교된 모든 모델을 압도적으로 앞섭니다.

DeepSeek-V3를 로컬에서 실행하는 방법은 무엇이며, 8가지 추론 백엔드 중 어떤 것을 선택해야 할까요? DeepSeek-V3는 8가지 추론 백엔드를 통해 로컬에 배포할 수 있습니다.

선택 방법은 다음과 같습니다:

백엔드 (Backend)	GPU 지원 최적	주요 특징 (Key Features)
SGLang (권장)	NVIDIA, AMD	프로덕션 서빙 (Production serving), MLA 최적화, DP Attention, FP8, Torch Compile, 멀티 노드 TP
LMDeploy (권장)	NVIDIA	오프라인 + 온라인 배포 (Offline + online deployment), 파이프라인 처리 (Pipeline processing), PyTorch 통합
TensorRT-LLM (권장)	NVIDIA	최대 성능 (Maximum performance), BF16, INT4/8 양자화 (quantization), FP8 곧 지원 예정
vLLM (권장)	NVIDIA, AMD	표준 서빙 (Standard serving), 텐서 + 파이프라인 병렬 처리 (Tensor + pipeline parallelism), FP8 + BF16
LightLLM	NVIDIA	멀티 노드 배포 (Multi-node deployment), FP8/BF16, PD-분리 (PD-disaggregation)
AMD GPU	AMD 하드웨어	AMD를 통해 SGLang 사용, BF16 + FP8
Huawei Ascend NPU	Ascend 하드웨어	Ascend를 통해 MindIE 사용, BF16
DeepSeek-Infer Demo	NVIDIA	학습/실험용 (Learning/experimentation), 참조 구현 (Reference implementation), Linux + Python 3.10 전용

SGLang (권장)으로 빠르게 시작하기:

# 전체 지침은 다음에서 확인하세요:
# https://github.com/sgl-project/sglang/tree/main/benchmark/deepseek_v3

# 모델 가중치 변환 (FP8을 BF16으로):
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

시스템 요구 사항:
Python 3.10이 설치된 Linux 환경만 지원합니다. Mac과 Windows는 네이티브로 지원되지 않습니다 (클라우드 배포 또는 Windows의 경우 WSL을 사용하세요). 전체 모델을 실행하려면 멀티 노드 GPU 설정이 필요합니다. 이 모델은 671B 파라미터 모델이므로 노트북 수준의 배포는 불가능합니다. 미니(mini) 모델은 더 작은 환경에서도 실행 가능하지만, 전체 모델은 여러 개의 H800/H100 GPU가 필요합니다.

참고: Hugging Face의 Transformers 라이브러리는 아직 DeepSeek-V3를 직접 지원하지 않습니다. 위에 나열된 추론 백엔드 중 하나를 사용하세요.

다중 토큰 예측 (Multi-Token Prediction, MTP)은 추측적 디코딩 (speculative decoding)을 통해 어떻게 추론을 가속화하나요?
다중 토큰 예측 (MTP)은 모델이 단순히 다음 토큰 하나만을 예측하는 대신, 각 위치에서 미래의 여러 토큰을 동시에 예측하도록 하는 학습 목표 (training objective)입니다.

추론 (inference) 과정에서 이는 투기적 디코딩 (speculative decoding)을 가능하게 합니다: 모델은 MTP 헤드를 사용하여 다음 몇 개의 토큰을 "빠르게" 예측합니다. 검증 단계 (verification pass)를 통해 이 토큰들을 메인 모델과 대조하여 확인합니다. 수락된 토큰은 확정(commit)되며, 거부된 토큰은 재생성 (re-generation)을 유발합니다. MTP 모듈은 14B 파라미터를 추가합니다 (671B 메인 모델 가중치와는 별개). 기술 보고서(technical report)에 따르면 MTP는 "추론 가속을 위한 투기적 디코딩 (speculative decoding)에도 사용될 수 있습니다"라고 명시되어 있습니다. 추론 백엔드 (inference backends)에서의 MTP 커뮤니티 지원은 여전히 활발히 개발 중입니다 — SGLang은 github.com/sgl-project/sglang/issues/2591에서 진행 상황을 추적하고 있습니다. 실질적인 이점은 다음과 같습니다: 지연 시간 (latency)에 민감한 애플리케이션 (채팅, 코드 완성)의 경우, MTP 투기적 디코딩은 한 번에 하나씩이 아닌 한 번의 순전파 (forward pass) 당 여러 개의 토큰을 생성함으로써 응답당 실제 소요 시간 (wall-clock time)을 크게 줄일 수 있습니다.

DeepSeek는 어떻게 R1의 추론 능력을 V3로 증류 (distill)했을까요? 그리고 이것이 오픈 소스 모델 품질에 어떤 의미를 가질까요? DeepSeek-R1로부터의 증류는 DeepSeek-V3에서 가장 기술적으로 흥미로운 측면 중 하나입니다. 그 접근 방식은 다음과 같습니다: DeepSeek-R1은 긴 사고 사슬 (Chain-of-Thought) 추론 모델입니다. 즉, 최종 답변을 내놓기 전에 단계별로 생각하고, 자신의 작업을 검증하며, 오류를 성찰 (reflect)합니다. R1의 추론 흔적 (reasoning traces)에서 나타나는 검증 및 성찰 패턴이 추출됩니다. 이러한 패턴은 포스트 트레이닝 (post-training) 파이프라인을 통해 DeepSeek-V3로 증류되며, 이 파이프라인은 "R1의 검증 및 성찰 패턴을 DeepSeek-V3에 우아하게 통합합니다"라고 설명됩니다. "우리의 파이프라인은 R1의 검증 및 성찰 패턴을 DeepSeek-V3에 우아하게 통합하며, 특히 추론 성능을 눈에 띄게 향상시킵니다. 동시에, 우리는 DeepSeek-V3의 출력 스타일과 길이를 제어할 수 있는 능력도 유지합니다." — DeepSeek-V3 기술 보고서. 핵심적인 차이점은, 이것이 V3로 하여금 긴 사고 사슬 (Chain-of-Thought) 흔적을 생성하게 만드는 것이 아니라는 점입니다.

이는 V3의 표준 출력 스타일과 길이를 유지하면서도 인지적 패턴(가정 검증, 모순에 대한 성찰, 다단계 문제 분해)을 증류(Distilling)하는 것입니다. 그 결과, 전체 사고 사슬 (Chain-of-Thought, CoT)을 사용할 때 발생하는 장황함과 지연 시간 (Latency) 비용 없이도 개선된 추론 능력(AIME 2024 및 MATH-500 점수에서 확인 가능)을 얻을 수 있습니다. 이러한 증류 (Distillation) 접근 방식은 오픈 소스 커뮤니티의 모델이 됩니다. 즉, 모델 아키텍처 (Architecture)나 추론 특성을 변경하지 않고도 사후 학습 (Post-training)을 통해 특화된 추론 모델의 능력을 범용 모델에 주입할 수 있습니다.

자주 묻는 질문 (FAQ)

Q: DeepSeek-V3를 단일 소비자용 GPU에서 실행할 수 있나요?
아니요. 전체 671B 모델은 여러 노드에 걸친 다수의 H800/H100 GPU를 필요로 합니다. 토큰당 활성화되는 파라미터가 37B뿐이라 하더라도, 전체 모델은 메모리에 로드되어야 합니다. 단일 GPU 환경의 경우, 양자화 (Quantized) 버전이나 DeepSeek 제품군의 더 작은 모델을 고려하십시오.

Q: DeepSeek-V3는 상업적 용도로 무료인가요?
코드는 MIT 라이선스(모든 용도로 무료)를 따릅니다. 모델 가중치 (Weights)에는 상업적 이용을 허용하는 별도의 모델 라이선스 (Model License)가 적용됩니다. 구체적인 약관은 저장소의 LICENSE-MODEL 파일을 확인하십시오.

Q: DeepSeek-V3는 DeepSeek-R1과 어떻게 비교되나요?
R1은 긴 사고 사슬 (Chain-of-Thought) 흔적을 생성하는 추론 특화 모델입니다. V3는 R1의 추론 패턴이 증류되어 포함된 범용 모델입니다. V3는 더 빠르고 효율적이며 일반적인 작업에 더 적합합니다. R1은 명시적인 단계별 추론이 필요한 작업에서 더 강력합니다.

Q: FP8 학습이 왜 중요한가요?
FP8은 (표준 16비트 대신) 8비트 부동 소수점 (Floating point)을 사용하여 메모리 요구 사항을 절반으로 줄이고 행렬 연산의 이론적 처리량 (Throughput)을 두 배로 높입니다. 이전의 대규모 FP8 학습 시도들은 불안정성을 초래했습니다. 671B 파라미터 규모에서 DeepSeek-V3가 성공적으로 수행한 FP8 사전 학습 (Pre-training)은 향후 대규모 모델을 위한 이 접근 방식의 유효성을 입증합니다.

Q: DeepSeek-V3는 함수 호출 (Function calling) 및 도구 사용 (Tool use)을 지원하나요?

DeepSeek-V3: 2026년에 로컬에서 실행 가능한 671B MoE 모델

요약

핵심 포인트

댓글