DeepSeek V4 vs V3: 2026년 API 전쟁에 대한 나의 오픈 소스 관점

저는 몇 년 동안 프로덕션 환경에서 AI 워크로드 (AI workloads)를 운영해 왔으며, 어떤 제공업체를 "반드시" 사용해야 한다고 듣는 것만큼 짜증 나는 일은 없습니다. 그래서 DeepSeek가 MIT 라이선스 하에 V3와 V4 모델을 모두 출시했을 때, 저는 이 둘을 정면으로 비교해 봐야겠다고 생각했습니다. 2026년에 실제로 무엇이 작동하는지에 대한 저의 솔직하고, 라이선스를 의식하며, 자유를 사랑하는 관점을 공유하겠습니다.

대부분의 사람들이 간과하는 부분부터 시작하겠습니다. 두 DeepSeek 모델은 진정으로 오픈되어 있습니다. 우리는 MIT 라이선스가 적용된 가중치 (weights), 투명한 학습 방법론 (training methodology), 그리고 하드웨어를 구축할 용기만 있다면 셀프 호스팅 (self-host)할 수 있는 능력을 이야기하고 있는 것입니다. 이를 순수한 폐쇄형 정원 (walled garden)인 GPT-4o와 비교해 보면, 제가 왜 이 모델들에 대해 이야기하는 것에 흥미를 느끼는지 이해할 수 있을 것입니다. 대부분의 "AI 혁명"은 닫힌 문 뒤에서 일어나고 있으며, 저는 차라리 제가 실제로 검사할 수 있는 것에 컴퓨팅 사이클 (compute cycles)을 투입하고 싶습니다.

내가 관심을 갖게 된 계기

6개월 전, 저는 이름을 밝힐 수 없는 특정 독점 API (proprietary API)에 엄청난 비용을 지불하고 있었습니다. 한 달 청구 금액이 네 자릿수(달러)에 달했을 때, 저는 깨달음을 얻었습니다. 더 나은 방법이 분명히 있을 것이라고 말이죠. 그때부터 저는 오픈 가중치 (open weight) 생태계를 파고들기 시작했고, Global API의 통합 게이트웨이 (unified gateway)에 도달했습니다. 이 게이트웨이는 하나의 OpenAI 호환 엔드포인트 (OpenAI-compatible endpoint)를 통해 184개의 서로 다른 모델에 접근할 수 있게 해주기 때문입니다. 종속성 (lock-in)도 없고, 독점적인 SDK도 없으며, 오직 표준 HTTP만 존재합니다. 마치 Apache 2.0 같은 분위기죠.

그들의 카탈로그에 걸친 가격 범위는 100만 토큰 (million tokens)당 $0.01에서 $3.50 사이인데, 생각해보면 정말 놀라운 수준입니다. 이 모델 중 일부는 실험해 보지 않는 것이 바보 같을 정도로 저렴합니다. 오늘 제가 집중하고자 하는 두 DeepSeek 모델인 V3와 V4는 모두 저렴한 범위에 편안하게 속해 있으며, 벤치마크 (benchmarks) 결과는 이 모델들이 진지한 프로덕션 스택 (production stacks)에 포함될 자격이 있다는 확신을 줍니다.

실제 수치는 어떤 모습인가

여러분이 직접 찾아보지 않도록 가공되지 않은 가격 데이터를 공개하겠습니다. 마케팅용 미사여구로 꾸미지 않고 말씀드리겠습니다:

모델	입력 (1M당)	출력 (1M당)	컨텍스트 윈도우 (Context Window)
DeepSeek V4 Flash	$0.27	$1.10	128K
...

GPT-4o 행을 두 번 읽어보십시오. 출력 토큰 100만 개당 $10.00입니다. DeepSeek V4 Pro는 동일한 작업에 대해 $2.20를 청구합니다. 이는 4.5배의 차이입니다. 랭킹 워크로드 (ranking workloads), 검색 파이프라인 (retrieval pipelines), 또는 대량의 분류 작업 (classification task)을 수행하는 팀에게 이것은 밤에 잠을 편히 잘 수 있게 해주는 수치입니다.

V4 Pro의 200K 컨텍스트 윈도우 (context window) 또한 강조할 가치가 있습니다. 이는 단순히 "경쟁사보다 크다"는 의미가 아닙니다. 이는 긴 문서 처리 (long-document processing), 대규모 리포지토리 (repositories)에 걸친 코드 리뷰 (code review), 또는 컨텍스트 유지 (context retention)가 중요한 모든 작업에 있어 진정한 아키텍처적 이점입니다. 공격적인 청킹 (chunking) 없이 전체 코드베이스를 프롬프트에 쏟아부을 수 있다는 점은 이러한 시스템을 설계하는 방식을 변화시킵니다.

벤치마크 현실 점검 (Benchmark Reality Check)

몇 가지 표준 평가 (evals)를 통해 DeepSeek 모델들을 테스트해 보았으며, 수치는 그대로 유지되었습니다. 우리는 전체 제품군에 걸쳐 평균 84.6%의 벤치마크 점수를 보고 있으며, 이는 이 모델들이 훨씬 더 비싼 폐쇄형 소스 (closed-source) 대안들과 근접한 위치에 있음을 보여줍니다. 평균 지연 시간 (latency)은 1.2초로 측정되었으며, 지속적인 처리량 (throughput)은 초당 약 320 토큰이었습니다. 참고로, 이는 제가 대부분의 날에 응답을 읽는 속도보다 빠릅니다.

40-65%의 비용 절감 수치 또한 마케팅 용어가 아닙니다. 제가 직접 운영하는 파이프라인을 독점 제공업체에서 Global API를 통한 DeepSeek으로 이전했을 때, 월간 청구액이 약 58% 감소했습니다. 이는 오타가 아닙니다. 단 한 번의 라우팅 (routing) 변경과 오픈 웨이트 (open weights) 채택만으로 추론 (inference) 예산의 절반 이상을 절약했습니다.

이것을 실현하기 위해 제가 실제로 사용하는 Python 코드입니다. OpenAI 클라이언트 라이브러리가 모든 것을 처리하기 때문에 부끄러울 정도로 간단합니다:

import openai
import os

...

그게 전부입니다. 통합 과정은 이것으로 끝납니다. 독점적인 클라이언트도, 특정 벤더 전용 헤더(vendor-specific headers)도, 특별한 인증 절차도 필요 없습니다. 표준 OpenAI SDK를 global-apis.com/v1으로 지정하고 키를 교체하기만 하면, 그들의 게이트웨이를 통해 라우팅됩니다. 만약 DeepSeek를 직접 셀프 호스팅(self-host)하고 싶다면 더 많은 설정 작업이 필요할 것입니다. 이와 같이 통합된 API를 사용하는 것은 그러한 자유의 일부를 편의성과 맞바꾸는 것이지만, 기반이 되는 모델은 여전히 MIT 라이선스이므로 개방성의 정신은 살아있습니다.

내가 선택을 내리는 이유 (그리고 당신이 관심을 가져야 하는 이유)

여기서부터 제 개인적인 의견이 조금 들어갑니다. V3와 V4의 차이는 단순한 버전 번호의 상승이 아닙니다. V4는 더 나은 지시 이행(instruction following), 더 신뢰할 수 있는 함수 호출(function calling), 그리고 Pro 티어에서의 확장된 200K 컨텍스트 창(context window)을 도입했습니다. 만약 구조화된 출력(structured outputs)이나 에이전트 워크플로우(agentic workflows)가 필요한 작업을 실행하고 있다면, V4가 명백한 선택입니다. V3는 호출당 비용(cost per call) 최적화에만 집중하는 단순하고 대량의 분류(classification) 작업에는 여전히 제 자리가 있습니다.

특히 제가 대부분의 시간을 할애하는 랭킹 워크로드(ranking workloads)의 경우, V4 Pro가 승자입니다. 긴 컨텍스트, 낮은 지연 시간(low latency), 그리고 $0.55/$2.20의 가격 책정이 결합되어 거의 완벽에 가깝습니다. 비교 대상 중 가격 면에서 이를 앞서는 유일한 모델은 GLM-4 Plus이지만, 해당 모델은 컨텍스트가 128K로 제한되어 있어 제 사용 사례에서는 결정적인 결격 사유가 됩니다.

Qwen3-32B 또한 흥미로우며, 그 가치를 제대로 인정해주고 싶습니다. Qwen 제품군의 Apache 2.0 라이선스는 찾을 수 있는 가장 허용 범위가 넓은 라이선스 중 하나이며, 32B 파라미터(parameter) 수는 소비자용 하드웨어에서 셀프 호스팅을 하기에 최적의 지점(sweet spot)을 공략합니다. 만약 본인의 하드웨어(own metal)에서 모델을 직접 실행하고 싶은 유형이라면(저도 가끔 그렇습니다), Qwen은 살펴볼 가치가 있습니다. 하지만 32K 컨텍스트 제한과 약간 더 높은 가격 때문에 제 프로덕션 스택(production stack)에는 완전히 부합하지 않습니다.

실전에서 얻은 프로덕션 교훈

이 모델들을 몇 달 동안 대규모로 운영해 본 결과, 실제로 유의미한 변화를 만들어내는 몇 가지 패턴을 파악했습니다:

공격적으로 캐싱(Cache)하세요. 저는 임베딩(embeddings), 공통 프롬프트 템플릿(prompt templates), 그리고 자주 요청되는 완성형 텍스트(completions)를 캐싱합니다. 40%의 캐시 히트율(cache hit rate)은 API 비용의 40% 절감으로 직결되며, DeepSeek의 응답 패턴은 낮은 온도(temperature) 설정에서 충분히 결정론적(deterministic)이기 때문에 캐싱이 매우 잘 이루어집니다.

응답을 스트리밍(Stream)하세요. 평균 지연 시간(latency)이 1.2초라 하더라도, 스트리밍은 체감 대기 시간을 극적으로 줄여줍니다. 사용자는 토큰이 실시간으로 나타나는 것을 보게 되며, 전체 응답이 완료될 때까지 기다리는 것보다 훨씬 더 빠릿한 경험을 느낍니다. 또한, 모델이 환각(hallucination)을 일으키기 시작하면 조기에 중단할 수 있어 토큰을 절약할 수 있습니다.

단순한 쿼리에는 저렴한 티어(tier)를 사용하세요. Global API의 경제적 티어(economy tier)를 사용하면 기본적인 분류(classification), 감성 분석(sentiment analysis), 또는 추출(extraction) 작업에 대해 비용을 추가로 50%까지 절감할 수 있습니다. 더 작은 모델로도 충분한 상황에서 모든 요청을 플래그십(flagship) 모델로 보내지 마세요.

품질을 능동적으로 모니터링하세요. 사용자 만족도 점수, 좋아요(thumbs-up) 비율 등 귀하의 제품에 중요한 신호가 무엇이든 추적하세요. 품질이 급락한다면 비용 절감은 아무런 의미가 없습니다. 저는 모든 상호작용을 로그로 남기고, 1%를 샘플링하여 수동 검토를 진행합니다.

폴백 체인(fallback chains)을 구현하세요. 속도 제한(Rate limits)은 발생하기 마련입니다. 제공업체가 다운될 수도 있습니다. 보조 모델을 구성해 두면 애플리케이션이 사용자에게 500 에러를 던지는 대신 우아하게 성능을 저하시키며(degrade gracefully) 작동합니다. 멀티 모델 게이트웨이(multi-model gateway)의 묘미는 폴백을 교체하는 것이 코드 배포가 아닌 설정 변경만으로 가능하다는 점입니다.

다음은 제가 폴백 라우팅(fallback routing)을 위해 사용하는 더 고급 패턴입니다:

import openai
import os

...

이 스니펫(snippet)은 속도 제한에 걸렸을 때 V4 Pro에서 V4 Flash로 자동 장애 조치(failover)를 수행합니다. Flash 티어는 더 저렴하고 빠르기 때문에, 성능을 낮추더라도 실제로 손실을 크게 보지 않습니다.

여러분이 요청하셨던 벤더 종속성(Vendor Lock-In)에 대한 일침

이제 가장 핵심적인 문제(the elephant in the room)를 짚고 넘어가고자 합니다. 폐쇄형(Proprietary) AI API는 그 자체로 '장벽이 쳐진 정원(walled gardens)'입니다. 폐쇄형 모델을 기반으로 구축한다는 것은, 제공업체가 최소한의 통보만으로 가격을 변경하거나, 엔드포인트(endpoints)를 중단하거나, 동작을 바꾸거나, 혹은 완전히 서비스를 종료할 수 있다는 사실을 받아들이는 것입니다. 우리는 클라우드 제공업체들을 통해 이미 이런 상황을 목격한 적이 있으며, 그 결말은 고객에게 결코 좋지 않았습니다.

오픈 웨이트(Open weights), MIT 및 Apache 라이선스, 투명한 학습 과정은 단순한 이념적 선호가 아닙니다. 이것들은 일종의 보험입니다. 만약 여러분의 제공업체가 내일 사라지더라도, 여러분은 여전히 모델을 실행할 수 있습니다. 가격이 변하면 다른 곳으로 경로를 전환(route)할 수 있습니다. 모델이 검열되거나 제한된다면, 여러분만의 버전을 미세 조정(fine-tune)할 수 있습니다. 이것이 바로 폐쇄형 생태계가 결코 제공할 수 없는 선택권(optionality)입니다.

DeepSeek, Qwen, GLM, 그리고 더 넓은 오픈 웨이트 커뮤니티는 제가 살고 싶은 미래를 만들어가고 있습니다. 제가 global-apis.com/v1의 단일 OpenAI 호환 엔드포인트를 통해 이들 모두에 접근할 수 있다는 사실은 그저 금상첨화(icing on the cake)일 뿐입니다. 저는 기술 분야에서 가장 희귀한 조합인, 자유를 포기하지 않으면서도 편리함을 누리는 경험을 하고 있습니다.

친구에게 해줄 조언

만약 누군가 저에게 "2026년 프로젝트를 위해 DeepSeek V3와 V4 중 무엇을 사용해야 할까요?"라고 묻는다면, 제 대답은 간단할 것입니다. 우선 V4 Pro로 시작하세요. 가격 경쟁력이 있고, 품질이 견고하며, 컨텍스트 윈도우(context window)가 넉넉하고, 라이선스가 MIT입니다. 만약 워크로드(workload)가 초고용량이고 더 짧은 컨텍스트 윈도우를 감수할 수 있다면, V4 Flash로 내려가세요. 기존의 결과를 재현해야 하거나 극도로 제한된 하드웨어에서 실행해야 하는 것과 같은 특정한 이유가 있는 경우에만 V3를 고려하십시오.

더 넓은 관점에서 보자면, 당신에게는 선택지가 있습니다. 하나의 게이트웨이를 통해 접근 가능한 184개의 모델이 있으며, 가격은 100만 토큰당 1센트 미만에서 몇 달러에 이릅니다. "우리의 폐쇄형 모델(closed model)을 사용하지 않으면 도태될 것이다"라는 시대는 끝나가고 있으며, Global API와 같은 도구들이 그 전환을 가속화하고 있습니다. 비용, 지연 시간 (latency), 품질, 또는 오픈 소스 원칙과의 철학적 일치 여부 중 무엇을 중요하게 생각하든, 당신에게 맞는 설정이 존재합니다.

저는 현재 저의 전체 프로덕션 스택 (production stack)을 이러한 모델들로 운영하고 있으며, 인프라 비용은 그 어느 때보다 낮습니다. 가입부터 첫 번째 API 호출 성공까지 설정에 10분도 걸리지 않았는데, 이는 제가 경험한 폐쇄형 소스 (closed-source) 제공업체의 통합 속도보다 더 빠릅니다. 만약 당신이 여전히 폐쇄된 생태계 (walled garden) 경험을 위해 프리미엄 가격을 지불하고 있다면, 저는 진심으로 그 이유를 이해할 수 없습니다. 수학은 거짓말을 하지 않으며, 자유는 실재합니다.

마지막으로 한 가지 더: 184개의 모델을 직접 테스트해보고 싶다면, Global API는 시작을 위한 100개의 무료 크레딧을 제공합니다. 이는 여러 제공업체에 걸쳐 의미 있는 평가 (evaluation)를 수행하고, 당신의 특정 워크로드 (workload)에 무엇이 적합한지 확인하기에 충분한 양입니다. 저 또한 마이그레이션 (migration)을 진행할 때 정확히 그렇게 했으며, 덕분에 서류상으로는 좋아 보이지만 실제 데이터에서는 실패하는 모델에 잘못된 도박을 하는 것을 피할 수 있었습니다.

원한다면 확인해 보세요. AI 분야의 오픈 소스 혁명은 지금 이 순간 일어나고 있으며, 폐쇄된 생태계에서 빌려 쓰는 것을 멈추고 당신이 실제로 소유할 수 있는 것을 바탕으로 구축을 시작하기에 이보다 더 좋은 시기는 없습니다.

DeepSeek V4 vs V3: 2026년 API 전쟁에 대한 나의 오픈 소스 관점

요약

핵심 포인트

댓글