DeepSeek V4: What's Inside, How It Compares, and Where It Actually Wins

DeepSeek V4 는 2026 년 4 월 24 일 출시되었습니다 — Moonshot 의 Kimi K2.6 보다 4 일 뒤, OpenAI 의 GPT-5.5 보다 1 일 뒤입니다.

두 모델 모두 MIT 라이선스이며 1M 컨텍스트를 지원합니다: V4-Pro 는 총 1.6T / 활성 49B, V4-Flash 는 284B / 13B 입니다.

가장 중요한 숫자는 가격입니다: V4-Pro 는 $3.48/백만 토크 (output tokens), Claude Opus 4.7 은 $25, GPT-5.5 은 $30 입니다. (DeepSeek 은 또한 5 월 5 일, 2026 까지 75% 할인 프로모션을 진행 중이며 — $0.87/백만 토크 출력 — 평가 기간 동안 격차를 더욱 확대합니다.) 이는 표준 가격 대비 약 7-9 배의 격차입니다. 이 모델은 대부분의 코딩 벤치마크에서 폐쇄 프론티어 (closed frontier) 에 ~5-7 점 가까이 있습니다.

이 격차는 많은 팀들이 모델 라우팅 결정 (model routing decisions) 을 재고하도록 충분히 큽니다. 하지만 가격은 완전한 그림을 보여줍니다. V4 는 일부 워크로드에서는 잘 작동하지만 다른 경우에는 poorly 합니다. 그리고 통합은 마케팅에서 제안하는 것보다 더 어렵습니다. 여기에는 평가, 엔지니어 리포트, 그리고 하부 구조의 새로운 것이 있습니다.

V4 가 실제로 이기는 곳 (그리고 그렇지 않은 곳)

9 일 만에 세 프론티어 클래스 모델이 출시되었고, 단일 모델이 우세하지 않습니다. 순위는 워크로드에 따라 바뀝니다:

실제 소프트웨어 엔지니어링 (PRs, 리팩토링, 멀티-레포 버그 수정): Opus 4.7 은 여러 파일 간 추론을 필요로 하는 독립 평가에서 앞섭니다 — Vals AI 의 Vibe Code 벤치마크, Aider Polyglot 세트, 그리고 LiveCodeBench 같은 오염 저항성 테스트입니다. 변경 사항이 멀티-파일이고 계획 수립이 어려운 경우 이 모델이 적절합니다. Opus 는 엔드 투 엔드 (plan + edits) 를 실행할 수 있으며, 워크플로우를 분할할 수도 있습니다: Opus 가 계획을 작성하고, GPT-5.5 은 저 또는 중 추론에서 파일 수정을 계획에 따라 실행합니다. 분할은 종종 더 나은 비용 - 품질 트레이드오프입니다.

터미널 / 에이전트 쉘 (Terminal / agentic shell): GPT-5.5 은 Terminal-Bench 2.0 에서 82.7%로 앞섭니다, V4-Pro 보다 약 15 점 앞서 있습니다. 이 워크로드들은 많은 작은 도구 호출과 쉘 출력 오류 복구를 포함하며, V4 는 동일한 깊이로 RL 훈련 (RL-trained) 을 받지 않았습니다.

장기 자율 실행 (12+ 시간 실행): Kimi K2.6 은 오픈소스 선택이며, Claw Groups 멀티 에이전트 조정과 4,000+ 도구 호출에 대한 데모 실행을 보여줍니다.

전체 레포 추론 (수백 개의 파일, >200K 토크): V4-Pro 의 1M 컨텍스트는 전체 길이를 사용할 때 경제적인 유일한 프론티어 옵션입니다 — 그 아키텍처는 1M 컨텍스트에서 추론 비용을 V3.2 의 약 1/4 으로 줄입니다. 아래에 더 많은 이유입니다.

자연스러운 적합은 작업의 발견 단계입니다: 전체 레포를 로드하고 V4-Pro 를 심층 연구, 검색, 코드베이스가 어떻게 맞는지 이해하는 데 사용합니다.

together — 분석을 통해 계획에 입력되는 단계로, 이를 Opus 또는 GPT-5.5 에 전달하여 실행합니다. 규모에서의 작업당 비용: V4-Flash 는 $0.28/M 으로, 폐쇄된 프론티어보다 90~107 배 저렴합니다. Tencent Hy3-preview 는 ~$0.55/M 로 비슷한 범위에 있습니다. 배치 및 야간 워크로드에서는 폐쇄된 모델이 경쟁력이 없습니다. 주목할 만한 추가 항목: Tencent Hy3-preview 는 가장 큰 오픈 소스 코딩 모델을 경쟁하지 않습니다. 이는 실제 제품 트래픽에서 비용당 단계를 최적화한 21B-활성 모델이며, CodeBuddy 와 WorkBuddy 를 구동하는 안정적 에이전트 실행은 최대 495 단계까지입니다. 예산이 제한되어 제품 내장 에이전트를 구축하는 경우 벤치마크 점수를 최적화하는 것이 아니라 평가할 가치가 있습니다. Tencent 는 트레이드오프에 대해 직접적입니다: 출시 노트는

s, is measured about positioning: V4 는 이제 내부 기본값이 되어 Sonnet 4.5 보다 우수하고 Opus 4.6 은 비사고 모드에서 거의 동등하지만 사고 모드는 오퍼스 4.7 과 명확한 평등성을 주장하지 않습니다. 벤더의 프레임워크는 출시 보도보다 훨씬 더 정확합니다. 부정적인 보고서는 통합에 집중됩니다. AkitaOnRails 는 OpenCode 를 통해 V4-Pro 를 실행할 수 없었습니다 — 사고 모드 핸드셰이크에서 계속 실패했습니다 — 그리고 DeepSeek 출시의 더 넓은 평가는 일관된 패턴을 반영합니다: 마케팅은 작업 도구 지원보다 먼저 도착하고, 커뮤니티는 프로토콜을 역공학하는 데 몇 주를 소비하며, 오픈소스 해싱의 간극은 지속되는 경향이 있습니다. Cursor 의 포럼은 유사한 문제를 보여주고 있으며, 오픈 스레드는 V4 의 컨텍스트가 200K 로 제한되고 도구 호출 후 reasoning_content 오류가 발생함을 보고하고 ( https://forum.cursor.com/t/deepseek-v4-context-limited-to-200k-reasoning-content-error/159045 ) 올바른 reasoning_content 호환성을 위한 오픈 기능 요청을 게시했습니다 ( https://forum.cursor.com/t/compatibility-with-deepseek-models-design-to-return-reasoning-content-after-tool-calls/158905 ). 로컬 추론 사용자는 또한 기다리고 있습니다 — 출시 시 커뮤니티 GGUF 는 없으며, llama.cpp 지원은 몇 일 뒤이며 MLX 는 Apple Silicon 에서 유사한 간격으로 지연됩니다. vLLM 은 네이티브 FP4/FP8 체크포인트에서 바로 작동하지만 하드웨어 바닥선은 Flash 를 위한 1 개의 H200 141GB 또는 2 개의 A100 80GBs, 전체 1M 컨텍스트를 사용하려면 4 개의 A100s 또는 2 개의 H200s 입니다. Chew Loong Nian 에서 온 유용한 반박은 20 개의 실제 작업 대신 리더보드 프롬프트를 통해 모든 4 가지 V4 계층을 테스트했습니다. V4-Pro-Max 은 지배하지 않았습니다. Flash 는 $0.14 / 백만 입력 토큰에서 7 개를 outright 에서 이겼으며, 주로 짧은 작업에서 가격-품질 트레이드오프가 이를 선호했습니다. Pro-Max 은 작업이 실제로 필요할 때만 명확하게 앞서 나갔습니다: 실제 GitHub 저장소를 800K 토큰 로 로드하고 함수의 호출 그래프를 요청하는 3 개의 긴 컨텍스트 검색 작업에서 Pro 는 3/3 을 달성했지만 Flash 는 1/3 만 달성했습니다. 이는 올바른 접근법을 시사합니다 — V4 는 다른 최적화 포인트를 가진 두 모델이며, Pro 는 컨텍스트가 클 때 프리미엄을 얻습니다. 실용적인 결론: 통합 작업을 위한 예산을 인퍼런스뿐만 아니라 아닙니다. 사고 모드 프로토콜은 비자명확하며 OpenCode 및 Claude Code 어댑터는 출시 시 모두 깔끔하게 작동하지 않으며, 몇 주 동안 자체 패치를 유지할 가능성이 높습니다. 고객에게 배포하기 전에 V4 를 그림에서 실행하세요. V4 가 잘 수행되는 이유 두 가지 설계 선택이 V4 의 프로필의 대부분을 설명합니다. 그것은 단지 act

ivates 49B of its 1.6T parameters per token. That's the mixture-of-experts approach — only the experts relevant to current token activate. Combined with running natively in 4-bit weights at inference (real FP4, not simulated quantization), this is how a 1.6T model fits within deployable economics. It's also why V4-Flash exists at 13B active: the same approach scaled further down. The cost gap to closed models comes from MoE plus FP4 plus training-efficiency improvements. It doesn't process the full million-token context. Instead, V4 summarizes long context into compressed blocks and learns which blocks to attend to for a given query. The result is concrete: at 1M context, V4-Pro uses 27% of V3.2's compute and 10% of its memory. That's what makes 1M context economically viable to serve, and why whole-repo reasoning is V4's primary workload. The tradeoff: the same compression is why V4 underperforms on terminal/agentic shell tasks. Those workloads are short-context, high-frequency tool calls — there's no million tokens to summarize, and the architectural advantage disappears. V4's weakness there isn't due to lack of effort; GPT-5.5 has been RL-trained on shell sessions much more heavily, and at short context that's what matters most. The technical report has more — including novel work on residual connections that other labs will likely adopt within two release cycles — but for routing decisions, the three points above are the most important.

What to watch next Three things will determine whether V4 becomes a production default, or remains a release that performs well on benchmarks but is difficult to integrate, like several DeepSeek launches before it.

Tool ecosystem catch-up (2-3 weeks). OpenCode, Cursor, Claude Code, Cline, and the long tail of agent harnesses need clean thinking-mode and reasoning_content support. The Cursor forum threads are the leading indicator; if they resolve within a few weeks, V4-Pro becomes a viable production option. If integration drags into May, the practical adoption ceiling stays low.

The Birkhoff-constrained transformer in other labs. mHC is the architectural idea most likely to spread. Watch Llama 5, Qwen 4, and Mistral's next foundation model for residual-connection changes that reference it.

Closed-frontier pricing response. With V4-Pro at one-seventh the price of Opus 4.7 and GPT-5.5 at near-comparable coding numbers, sustained pressure on closed-API pricing is the most likely industry move. The question is whether

Anthropic 와 OpenAI 는 차별화된 워크로드 (Anthropic 은 실제 세계 SWE, OpenAI 는 터미널/에이전트) 에 프리미엄 가격을 부과하거나 더 넓은 절감을 제공합니다. 더 넓은 맥락: 6 개월 전, 최고의 오픈-웨이트 코딩 모델은 SWE-Bench 에서 폐쇄적 프론티어보다 15~20 포인트 뒤처졌습니다. 오늘, 세 개의 오픈 모델 — DeepSeek V4-Pro, Kimi K2.6, GLM-5 은 Claude Opus 4.7 과 약 7 포인트 이내의 위치에 있습니다. 중국 연구실들만 지난 3 개월 동안 코딩에 집중된 체크포인트를 거의 매주 출시했습니다. 오픈 vs 폐쇄적 프레임링은 더 이상 가장 유용한 것이 아닙니다. 더 유용한 프레임링은 어떤 워크로드에 어떤 모델이 적합하며, 어떤 비용과 신뢰성 프로필로 하는 것입니다. V4 는 여러 워크로드의 답변을 바꿉니다. 나머지는 통합 작업입니다. V3 에서 V4 로는 V2 에서 V3 와 유사한 단계이며, 유사한 출시 Cadence 입니다. 이번에는 타이밍이 다릅니다: 오픈 프론티어가 충분히 추격하여 멀티 모델 라우팅 — V4-Flash 를 저렴한 호출에, V4-Pro 를 긴 컨텍스트에, Opus 4.7 또는 GPT-5.5 를 핵심 경로에 — 기본 아키텍처가 되는 지점에 도착했습니다. 라우팅과 평가 인프라를 먼저 확립한 팀들은 단일 모델 선택보다 더 큰 이점을 얻습니다. References [1] DeepSeek,

DeepSeek V4: What's Inside, How It Compares, and Where It Actually Wins

요약

핵심 포인트

댓글