DeepSeek V4: GPT-5를 능가하는 오픈 소스 모델 실행하기

DeepSeek가 V4를 출시했으며, 그 수치는 경이롭습니다. 전적으로 Huawei Ascend 칩에서 학습된 완전한 오픈 웨이트 (open-weight) 모델로, 허용적인 라이선스 하에 출시되었으며, 추론 비용이 10분의 1도 안 되는 비용으로 GPT-5급 성능을 제공합니다. LLM API를 기반으로 구축하는 개발자들에게 이는 하룻밤 사이에 경제 구조를 변화시킵니다.

타이밍이 중요합니다. 미국의 수출 통제는 정확히 이런 상황을 방지하기 위해 설계되었으며, 중국을 AI 하드웨어 측면에서 궁지로 몰아넣었습니다. 대신, DeepSeek는 소프트웨어 스택과 아키텍처 혁신이 최신 NVIDIA 실리콘에 대한 접근성보다 더 중요하다는 것을 증명함으로써 대응했습니다. V4는 진정으로 CUDA가 필요하지 않은 첫 번째 프런티어 (frontier) 모델입니다.

중요한 수치들

deepseek-ai의 HuggingFace 컬렉션 페이지를 열면 네 가지 V4 변체 (variant)를 찾을 수 있습니다:

변체 (Variant)	파라미터 (Parameters)	출력 가격 (Output Price)	다운로드 (Downloads)
V4 Flash	158B	$0.20/M tok	2.24M
...

API 가격 비교: 100만 토큰당 $0.20인 DeepSeek V4 Flash vs 100만 토큰당 $60인 GPT-5. Flash는 300배 더 저렴합니다. 100만 토큰당 $2.60인 플래그십 V4 Pro조차 GPT-5보다 23배 저렴합니다.

V4 Flash는 Fireworks에서 초당 90.4 토큰을 전송합니다. V4 Pro는 Together에서 초당 75 토큰에 도달합니다. 이것은 연구 논문의 주장이 아니라 실제 프로덕션 처리량 (throughput) 수치입니다.

맥락을 위해 설명하자면: 만약 당신이 GPT-5 API 호출에 월 $1,000를 쓰고 있다면, V4 Flash로 전환하면 그 비용은 약 $3.30로 떨어집니다. V4 Pro는 $43로 낮춰줍니다. 이것은 미미한 최적화가 아닙니다. 비용 모델 자체를 다시 써야 하는 수준의 변화입니다.

V4를 기술적으로 흥미롭게 만드는 요소

2026년의 모든 프런티어 (Frontier) 모델은 전문가 혼합 (Mixture of Experts, MoE) 아키텍처를 사용합니다. 차이점은 세부 사항에 있습니다.

Multi-Head Latent Attention (MLA). DeepSeek는 V2와 함께 MLA를 도입했으며, 이는 현재 그들의 제품군 전체에서 표준으로 자리 잡았습니다. 핵심 아이디어는 추론 (Inference) 과정에서 KV 캐시 (KV cache)를 저차원 잠재 공간 (low-rank latent space)으로 압축하여 메모리 사용량을 획기적으로 줄이는 것입니다. 128K 토큰을 초과하는 컨텍스트 윈도우 (context windows, V4가 지원함)의 경우, 이것이 서비스 비용을 지속 가능하게 만드는 요소입니다. MLA가 없었다면 861B 파라미터를 가진 128K 컨텍스트의 KV 캐시는 상업적으로 실행 불가능했을 것입니다.

Sparse MoE routing. 토큰당 전문가 (experts) 중 극히 일부만 활성화됩니다. V4 Flash는 158개 중 약 16~~20개를 활성화하고, V4 Pro는 861개 중 약 40~~60개를 활성화합니다. 이것이 전체 파라미터 수가 생각보다 덜 중요한 이유입니다. 토큰당 유효 연산량 (effective compute)이 훨씬 적으며, 여기서 속도와 비용의 이점이 발생합니다.

Huawei CANN stack. 이것은 지정학적인 이야기입니다. DeepSeek는 CUDA 대신 CANN (Compute Architecture for Neural Networks)을 사용하여 Huawei Ascend 910C 가속기에서 V4를 학습시켰습니다. 수년간 CUDA의 해자 (moat)는 난공불락이라는 서사가 지배적이었으나, DeepSeek는 프론티어 (frontier) 규모에서 그렇지 않음을 방금 증명했습니다.

학습 및 배포 아키텍처: Huawei Ascend 하드웨어 계층, MoE + MLA 모델 설계, 그리고 멀티 프로바이더 배포 생태계. 모두 오픈 웨이트 (open weights)이며 Apache 2.0 라이선스를 따릅니다.

V4를 로컬에서 실행하기

데이터 센터가 필요하지 않습니다. 소비자용 하드웨어에서 V4 Flash를 구동하는 방법은 다음과 같습니다.

옵션 1: 클라우드 API (5분 소요)

import openai

client = openai.OpenAI(
...

출력 토큰 100만 개당 0.20달러입니다. 클라이언트 코드는 기존의 OpenAI 설정과 동일합니다. 동일한 스키마 (schemas), 동일한 도구 호출 (tool calling) 인터페이스, 동일한 구조화된 출력 (structured output) 지원을 제공합니다.

옵션 2: vLLM을 이용한 자체 호스팅

pip install vllm
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash

...

V4 Flash는 양자화 (Quantization)를 통해 4x A100-80GB 또는 8x RTX 4090에서 실행 가능합니다. V4 Pro는 더 강력한 하드웨어가 필요하지만 (전정밀도 (Full Precision)를 위해 최소 8x H100 필요), 저사양 환경을 위한 GGUF 양자화 버전이 이미 HuggingFace에 올라와 있습니다.

옵션 3: Ollama (가장 간단한 방법)

ollama pull deepseek-v4:flash
ollama run deepseek-v4:flash

Ollama는 양자화 (Quantization)와 메모리 관리를 자동으로 처리합니다. 가장 빠른 옵션은 아니지만, 단일 GPU가 탑재된 MacBook에서도 작동합니다.

V4가 승리하는 지점 (그리고 그렇지 않은 지점)

실제 테스트를 통해 제가 발견한 결과는 다음과 같습니다:

확실한 승리 요소:

비용에 민감한 프로덕션 워크로드 (Production workloads). 수천 개의 요청을 처리해야 한다면, GPT-5와의 300배 가격 차이는 실제 비용 절감으로 이어집니다.
오픈 소스 툴체인 (Open-source toolchains). 모델을 직접 소유할 수 있습니다. 특정 벤더 종속 (Vendor lock-in)이 없고, API 지원 중단이나 갑작스러운 가격 인상이 없습니다.
미세 조정 (Fine-tuning). 전체 가중치 (Full weights)를 제공하므로, API의 미세 조정 범위로 제한되는 GPT-5와 달리 특정 도메인에 맞춰 V4를 실제로 미세 조정할 수 있습니다.

아직 성숙이 필요한 부분:

일부 제공업체의 구조화된 출력 (Structured output) 신뢰성. DeepInfra는 이 문제를 해결했지만, 사용 중인 특정 호스트를 확인하십시오.
멀티모달 (Multimodal) 지원. V4는 텍스트 전용입니다 (GPT-5의 비전 기능과 대조적임). DeepSeek는 비전 작업을 위해 별도의 VL 및 OCR 모델을 보유하고 있습니다.
생태계 도구 (Ecosystem tooling). LangChain과 LlamaIndex는 잘 작동하지만, 에이전트 프레임워크 (Agent frameworks)의 일부 엣지 케이스 (Edge cases)들은 여전히 개선 작업이 진행 중입니다.

더 큰 그림

DeepSeek V4는 단순한 또 다른 모델 출시가 아닙니다. 이는 AI 공급망이 눈에 띄게 이분화되는 순간입니다. 한 축은 NVIDIA 하드웨어와 CUDA 및 독점 API를 기반으로 움직입니다. 다른 한 축은 오픈 가중치 (Open weights)와 범용 가격 정책을 가진 대체 실리콘 (Alternative silicon)을 기반으로 움직입니다.

개발자들에게 이는 명백히 좋은 소식입니다. 최전선(Frontier)에서의 경쟁은 가격을 낮추고 가중치를 공개 상태로 유지하게 만듭니다. 6개월 전만 해도 GPT-5급 모델을 로컬에서 실행하는 것은 환상에 불과했습니다. 오늘날 그것은 pip install vllm 명령어 하나로 가능해졌습니다.

Huawei의 이야기는 변수(wildcard)입니다. 만약 Ascend가 계속해서 성능을 개선하고 DeepSeek가 지금과 같은 속도로 실행력을 유지한다면, 지난 5년간 AI 분야를 정의해 온 하드웨어 독점 현상은 훨씬 덜 중요해질 것입니다. LLM (Large Language Models)을 기반으로 무언가를 구축하는 사람이라면, 이는 주목할 만한 가치가 있습니다.

DeepSeek V4에 대한 여러분의 경험은 어떠신가요? 이미 프로덕션 (production) 환경에서 실행 중이신가요, 아니면 기존의 강자들을 계속 사용하고 계신가요?