DeepSeek V4 출시: 1M 컨텍스트, 오픈 웨이트(open weights), 그리고 매우 공격적인 API 가격 책정

DeepSeek가 다음 라운드의 오픈 모델 (open-model) 경쟁을 위해 강력한 이정표를 세웠습니다. 이 회사는 DeepSeek-V4 Preview가 현재 채팅, 앱, API에서 사용 가능하며, Hugging Face와 ModelScope에 오픈 웨이트 (open weights)로 공개되었다고 밝혔습니다.

개발자들을 위한 요약: 이것은 단순한 벤치마크 게시물이 아닙니다. DeepSeek는 저렴한 API 접근성, 코딩/에이전트 (coding/agent) 성능 주장, 그리고 팀들이 스택을 다시 작성하지 않고도 테스트할 수 있을 만큼 충분한 호환성 작업을 갖춘 롱 컨텍스트 (long-context) 모델 제품군을 출시하고 있습니다.

출시된 내용

DeepSeek는 V4가 두 가지 변형으로 제공된다고 말합니다:

DeepSeek-V4-Pro: 추론 (reasoning), 세상에 대한 지식 (world knowledge), 그리고 더 어려운 에이전트 (agent)/코딩 작업에 특화된 고성능 모델입니다.
DeepSeek-V4-Flash: 유사한 추론 성능을 주장하지만, 더 어려운 에이전트 작업과 세상에 대한 지식 측면에서는 다소 약한, 더 저렴하고 빠른 옵션입니다.

회사의 출시 게시물에 따르면, 프리뷰는 오늘 chat.deepseek.com, 공식 앱, 그리고 API를 통해 사용할 수 있습니다. API 사용자를 위한 새로운 모델 이름은 다음과 같습니다:

deepseek-v4-pro
deepseek-v4-flash

DeepSeek의 API 문서에는 두 모델 모두 다음과 같은 사양으로 나열되어 있습니다:

1M 컨텍스트 길이 (context length)
최대 384K 출력 (maximum output)
JSON 출력
도구 호출 (tool calls)
컨텍스트 캐싱 (context caching)
https://api.deepseek.com에서의 OpenAI 형식 베이스 URL
https://api.deepseek.com/anthropic에서의 Anthropic 형식 베이스 URL
사고 모드 (thinking mode) 및 비사고 모드 (non-thinking mode)

가격은 매우 빠르게 검증될 부분입니다. DeepSeek의 문서에는 현재 다음과 같이 기재되어 있습니다:

모델	입력 캐시 히트 (Input cache hit)	입력 캐시 미스 (Input cache miss)	출력 (Output)
DeepSeek-V4-Flash	$0.0028 / 1M tokens	$0.14 / 1M tokens	$0.28 / 1M tokens
DeepSeek-V4-Pro	$0.003625 / 1M tokens	$0.435 / 1M tokens	$0.87 / 1M tokens

실제 성능이 유지된다면, 특히 토큰 소모가 빠르게 발생하는 에이전트 루프 (agent loops) 및 롱 컨텍스트 (long-context) 워크플로우에서 이는 매우 저렴한 수준입니다.

호스팅된 API뿐만 아니라 오픈 웨이트 (open weights) 제공

DeepSeek는 Hugging Face에도 V4를 공개했습니다. 모델 페이지에는 MIT 라이선스와 대규모 safetensor 릴리스가 표시되어 있습니다. Hugging Face 메타데이터에 따르면, V4-Pro는 총 약 862B(8,620억) 개의 파라미터를, V4-Flash는 158B(1,580억) 개의 파라미터를 보유하고 있습니다.

DeepSeek의 자체 설명에 따르면, V4는 **압축 희소 어텐션 (Compressed Sparse Attention)**과 **고도로 압축된 어텐션 (Heavily Compressed Attention)**을 결합한 하이브리드 어텐션 (hybrid attention) 설정을 사용하며, 여기에 **매니폴드 제약 하이퍼 커넥션 (Manifold-Constrained Hyper-Connections)**과 Muon 옵티마이저 (optimizer) 학습을 더했습니다. 주목해야 할 주장은 긴 컨텍스트 (long-context) 효율성입니다. 모델 카드에 따르면, 1M(100만) 토큰 설정에서 V4-Pro는 DeepSeek-V3.2와 비교했을 때 **단일 토큰 추론 FLOPs의 27%와 KV 캐시 (KV cache)의 10%**만을 필요로 합니다.

언제나 그렇듯, 벤더의 벤치마크 (benchmark)는 최종 판결이 아닌 시작 신호로 간주해야 합니다.

개발자들이 주목해야 하는 이유

여기에는 세 가지 실질적인 관점이 있습니다.

첫째, 긴 컨텍스트 에이전트 (long-context agents) 실험 비용이 저렴해집니다. 1M 토큰의 컨텍스트 윈도우 (context window)와 낮은 캐시 히트 (cache-hit) 가격 책정 덕분에, 거대한 코드베이스, 전사 데이터 (transcripts), 로그, 또는 연구 코퍼스 (corpora)를 비용 폭탄 없이 즉시 활용하는 것이 더욱 현실적이 되었습니다.

둘째, API 호환성이 중요합니다. OpenAI 스타일과 Anthropic 스타일의 API를 모두 지원함으로써 전환 비용 (switching cost)을 낮춥니다. 만약 귀하의 앱이 이미 제공자들을 추상화 (abstract)하고 있다면, V4는 분기 단위의 마이그레이션 (migration)이 아닌 주말 동안의 실험 정도로 끝날 것입니다.

셋째, 이는 폐쇄형 모델 (closed-model) 연구소들에 압박을 가합니다. DeepSeek는 V4-Pro를 최상위 폐쇄형 모델들과 명시적으로 대조하며, 자사의 내부 에이전틱 코딩 (agentic coding) 경험이 Sonnet 4.5보다는 앞서 있지만 Opus 4.6의 사고 모드 (thinking mode)에는 아직 뒤처져 있다고 말합니다. 이는 DeepSeek의 주장일 뿐 독립적인 결과는 아니지만, 엔지니어링 팀들이 정확히 수행하게 될 비교 방식이기도 합니다.

주의 사항

이것은 **프리뷰 (preview)**이며, 주요 주장들은 독립적인 테스트가 필요합니다: 코딩 신뢰성, 도구 호출 (tool-call) 동작, 부하 상황에서의 지연 시간 (latency), 거부/안전 동작, 그리고 1M 컨텍스트가 실제로 유용하게 유지되는지 아니면 단순히 기술적으로만 가능한 것인지에 대한 검증이 필요합니다.

또한 모델 이름의 전환에도 유의하십시오. DeepSeek의 API 문서에 따르면 기존의 deepseek-chat 및 deepseek-reasoner라는 이름은 폐기(deprecated)될 예정이며, 전환 기간 동안 현재의 별칭(aliases)은 V4-Flash의 비사고(non-thinking) 및 사고(thinking) 모드를 가리키게 됩니다. 만약 해당 별칭을 사용하여 프로덕션 워크로드(production workloads)를 실행 중이라면, 아무것도 변하지 않았다고 가정하는 대신 의도적으로 버전을 고정(pin)하고 테스트하십시오.

그럼에도 불구하고, 이는 진정한 출시입니다: 새로운 모델 제품군, 오픈 웨이트 (open weights), 호스팅된 API, 긴 컨텍스트 (long context), 에이전트/코딩 포지셔닝, 그리고 수많은 AI 제품의 경제성을 변화시킬 수 있는 가격 책정이 포함되어 있습니다.

DeepSeek V4 출시: 1M 컨텍스트, 오픈 웨이트(open weights), 그리고 매우 공격적인 API 가격 책정

요약

핵심 포인트

DeepSeek V4 출시: 1M 컨텍스트, 오픈 웨이트(open weights), 그리고 매우 공격적인 API 가격 책정

출시된 내용

호스팅된 API뿐만 아니라 오픈 웨이트 (open weights) 제공

개발자들이 주목해야 하는 이유

주의 사항

출처

댓글