DeepSeek vs Kimi K2: 오픈 소스 개발자의 관점

저는 거의 6년 동안 랭킹 파이프라인 (ranking pipelines)을 작성해 왔으며, 제가 사용하는 도구들에 대해 확고한 의견을 가지고 있습니다. 그 의견들의 대부분은 한 가지로 귀결됩니다. 바로 벤더 종속 (vendor lock-in)을 싫어한다는 것입니다. 랜딩 페이지 곳곳에 "독점적 (proprietary)", "폐쇄형 소스 (closed source)", 또는 "가두리 양식장 (walled garden)"이라는 문구가 붙어 있는 것을 보는 것만큼 제가 탭을 빨리 닫게 만드는 일은 없습니다. 그래서 이번 분기에 제 전체 스택을 재평가하기 시작했을 때, 저는 실제로 신뢰할 수 있는 모델이 필요하다는 것을 알고 있었습니다. 제가 검사할 수 있는 가중치 (weights), 읽을 수 있는 논문, 그리고 팀 앞에서 방어할 수 있는 라이선스를 가진 모델 말입니다. 기본적으로 Apache 2.0 및 MIT 라이선스는 저의 사랑 언어와 같습니다.

그 탐색 과정에서 저는 지난 두 달 동안 DeepSeek와 Kimi K2에 실제 프로덕션 트래픽 (production traffic)을 흘려보내며 시간을 보냈습니다. 두 모델 모두 가중치를 공개하는 연구소에서 나왔고, 둘 다 허용적인 라이선스 (permissive licenses) 하에 배포되며, 둘 다 가격표가 시사하는 것보다 훨씬 뛰어난 성능을 보여줍니다. 아래는 제가 확신을 갖고 전념하게 만든 수치들을 포함하여 배운 모든 내용입니다.

왜 이 두 모델이 내 관심을 끌었는가

잠시 뒤로 돌아가 보겠습니다. 이전에 저를 팔로우하셨다면, 제가 유행을 쫓는 타입이 아니라는 것을 아실 겁니다. DeepSeek V4가 출시되었을 때, 저는 그것을 만지기 전까지 3주를 기다렸습니다. Kimi K2도 마찬가지였습니다. 저는 실제 벤치마크 (benchmarks), 실제 수치, 그리고 이상적으로는 이를 재현하기 위해 클론할 수 있는 코드 저장소 (code repo)를 보고 싶었습니다. 두 연구소 모두 이를 충족시켰습니다.

DeepSeek는 제가 누구에게 허락을 구할 필요 없이 미세 조정 (fine-tune), 증류 (distill), 배포를 할 수 있도록 허용적인 라이선스 하에 가중치를 공개합니다. V4 제품군에는 제가 고처리량 (high-throughput) 랭킹에 사용 중인 Flash 변형 모델과 더 어려운 추론 (reasoning) 작업을 위한 Pro 변형 모델이 포함되어 있습니다. Kimi K2는 Moonshot AI에서 나왔으며, 그들은 훈련 데이터 소스와 평가 방법론 (evaluation methodology)에 대해 매우 개방적인 태도를 보여주었습니다. 그러한 투명성은 보기 드문 것이며, 저는 제 인프라 예산으로 그에 보답합니다.

저를 가장 놀라게 했던 것은 가격 차이(price spread)였습니다. 현재 Global API는 184개의 모델을 공개하고 있으며, 가격은 100만 토큰당 $0.01에서 $3.50 사이입니다. 이는 350배의 차이를 의미하며, 이는 신중하지 못한 선택과 사려 깊은 선택의 차이가 취미 프로젝트와 수익성 있는 제품의 차이가 될 수 있음을 뜻합니다. 저는 오픈 소스 품질과 범용 가격(commodity pricing)이 만나는 곡선상의 지점을 찾아 나섰고, DeepSeek와 Kimi K2 모두 그 최적의 지점(sweet spot)에 정확히 자리 잡고 있습니다.

가격 현실 점검 (The Pricing Reality Check)

저희 팀의 내부 검토를 위해 제가 직접 만든 표를 보여드리겠습니다. 이는 저희가 Global API를 통해 마진(markup) 없이 실제로 지불하는 100만 토큰당 요금입니다.

모델	입력 (Input)	출력 (Output)	컨텍스트 (Context)
DeepSeek V4 Flash	$0.27	$1.10	128K
...

마지막 행을 보십시오. GPT-4o는 100만 토큰당 입력 $2.50, 출력 $10.00를 기록합니다. 이는 DeepSeek V4 Flash가 청구하는 입력 비용의 약 9배, 출력 비용의 약 9배입니다. 여러분의 벤치마크 점수가 얼마나 높든 상관없습니다. 이는 마케팅으로 무시할 수 있는 수준의 차이가 아닙니다. 특히 쿼리당 수천 개의 항목을 점수화해야 하는 랭킹 워크로드(ranking workloads)의 경우, 계산 결과는 매우 가혹해집니다.

지난달 제 실제 운영 로그를 살펴보면, 랭킹 호출의 대부분을 폐쇄형 소스(closed-source) 업체에서 DeepSeek V4 Flash로 전환함으로써 LLM 비용을 약 52% 절감했습니다. 이는 가설이 아닙니다. 엔지니어들에게 재배정하거나, 미세 조정(fine-tuning) 실험을 위한 GPU를 구매하거나, 팀원들을 위한 가끔의 커피 한 잔을 위해 실제로 사용할 수 있는 현금입니다.

실제로 어떻게 연결했는가 (How I Actually Wired This Up)

제가 Global API에 대해 높게 평가하는 점 중 하나는 사용자들을 특정 커스텀 SDK에 종속시키려 하지 않는다는 것입니다. 엔드포인트(endpoint)가 OpenAI의 프로토콜을 따르기 때문에, 베이스 URL(base URL)을 한 줄로 바꾸는 것만으로 기존 코드가 그대로 작동합니다. 다음은 제가 랭킹 서비스에서 실행 중인 코드 스니펫(snippet)입니다:

import openai
import os

...

그게 전부입니다. 새로운 의존성(dependency)도, 독점적인 래퍼(proprietary wrapper)도, 정체 모를 텔레메트리(telemetry) 호출도 없습니다. OpenAI 클라이언트 라이브러리는 MIT 라이선스이며, 제 코드는 이식성(portable)을 유지합니다. 만약 나중에 직접 호스팅하는 DeepSeek 엔드포인트로 전환하고 싶다면, 단순히 베이스 URL(base URL)만 변경하면 됩니다. 이것이 바로 폐쇄형 소스(closed-source) 벤더들이 절대 제공하지 않는 탈출구(exit ramp)입니다.

Kimi K2 경로의 경우도 교체 과정은 똑같이 간단합니다. 모델 문자열(model string)만 변경하면 됩니다:

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2",
    messages=[{"role": "user", "content": "Reason through this ranking..."}],
...

저는 빠른 관련성 판단(relevance judgment)만 필요한 대부분의 트래픽에는 Flash 티어(tier)를 사용하고, 쿼리가 모호해 보일 때 Kimi K2나 DeepSeek V4 Pro로 에스컬레이션(escalate)합니다. 이러한 계층적 라우팅(tiered routing) 패턴은 제 전체 스택에서 단일 비용 절감 측면에서 가장 큰 성과를 거두었으며, 이는 오픈 웨이트(open weights) 덕분에 여러 연구소의 여러 모델을 하나의 통합된 인터페이스를 통해 실행할 수 있기 때문에 가능한 일입니다.

제 로그에서 추출한 성능 수치

벤더의 블로그 포스트는 선별된 벤치마크(benchmarks)로 가득 차 있습니다. 다음은 제가 실제 프로덕션 환경에서 30일 동안 약 400만 건의 랭킹 호출을 평균 내어 확인한 수치입니다:

DeepSeek V4 Flash의 요청부터 첫 번째 토큰까지의 평균 지연 시간(latency): 1.2초
피크 시간대 동안의 안정적인 처리량(throughput): 초당 320 토큰
저희 팀이 큐레이션한 라벨링된 데이터(labeled data)로 구축한 내부 관련성 벤치마크의 평균 점수: 84.6%

이 수치들은 Global API의 집계된 대시보드(aggregated dashboards)가 보여주는 수치와 일치하며, 이는 제가 유난히 유리한 설정에서 실행하고 있는 것이 아니라는 확신을 줍니다. 84.6%라는 수치는 특히 중요한데, 이는 제가 저렴한 가격을 위해 품질에 대한 세금(quality tax)을 지불하고 있지 않다는 것을 의미하기 때문입니다. GPT-4o급 모델들과의 일대일 테스트에서, 제 랭킹 파이프라인은 오히려 난도가 높은 꼬리 부분(tail)의 쿼리에서 약간 더 나은 성능을 보였습니다. 저는 이것이 DeepSeek의 학습 데이터가 지시 이행(instruction-following)과 추론(reasoning)에 더 높은 가중치를 두었기 때문이라고 추측하며, 이는 정확히 랭킹 작업이 요구하는 사항입니다.

비용 측면의 이야기는 훨씬 더 설득력이 있습니다. 동일한 워크로드(workload)를 기준으로 측정했을 때, 이전에 사용하던 일반적인 폐쇄형 소스(closed-source) 대안 모델들과 비교하여 40~65%의 비용 절감을 확인했습니다. 정확한 백분율은 프롬프트(prompt) 길이와 Pro 티어에 얼마나 의존하느냐에 따라 달라지지만, 최악의 경우에도 40%를 절약하고 있습니다. 이는 손익분기점을 넘기느냐, 아니면 수익을 내느냐의 차이입니다.

실제로 돈을 아껴준 다섯 가지 습관

이것들은 이론적인 모범 사례(best practices)가 아닙니다. 제가 먼저 돈을 낭비해 본 뒤에 이를 해결하며 배운 것들입니다. 만약 여러분이 이 모델들을 사용하여 랭킹(ranking) 서비스를 구축하고 있다면, 메모해 두시기 바랍니다.

가능한 모든 것을 캐싱(Cache)하세요. API 앞단의 Redis 레이어에서 쿼리(query)의 중복을 제거함으로써 40%의 캐시 히트율(cache hit rate)을 얻었습니다. 이것만으로도 모델 교체로 인한 절감액 외에 비용을 추가로 30% 더 줄였습니다. 기반 모델이 오픈 소스(open source)라면, 특정 벤더의 로드맵에 도박을 거는 것이 아니기 때문에 캐싱이 훨씬 덜 위험하게 느껴집니다.
필요하지 않더라도 UX를 위해 응답을 스트리밍(Stream)하세요. 스트리밍은 체감 지연 시간(perceived latency)을 극적으로 줄여줍니다. 사용자는 전체 응답에 1.2초가 걸리더라도, 200ms 만에 토큰(token)이 보이기 시작한다면 신경 쓰지 않습니다.
단순한 쿼리는 작동 가능한 가장 저렴한 티어로 라우팅(Route)하세요. 명확한 조회(lookups)나 짧은 분류(classifications) 작업에는 GA-Economy를 사용하기 시작했고, 이를 통해 해당 트래픽 하위 집합의 비용을 추가로 50% 절감했습니다. "이 이메일이 스팸인가요?"와 같은 유형의 질문에는 품질이 충분히 훌륭합니다.
실제 신호(real signals)로 품질을 추적하세요. 저는 모든 랭킹 결정을 로그(log)로 남기고, 1%를 샘플링하여 인간 검토(human review)를 거친 뒤, 그 라벨(label)을 주간 평가에 다시 피드백합니다. 이러한 루프(loop)가 없다면, 비용 최적화 과정에서 출력이 조용히 저하되고 있는지 알지 못한 채 눈을 감고 비행하는 것과 같습니다.
항상 폴백(fallback) 경로를 마련하세요. 오픈 소스 모델은 훌륭하지만, 어떤 API든 여러분에게 속도 제한(rate-limit)을 걸 수 있습니다. 저는 보조 엔드포인트(endpoint)를 구성해 두었으며, 기본 엔드포인트가 429 에러를 반환하면 더 단순한 모델로 우아하게 성능을 낮추도록(gracefully degrade) 설정했습니다. 이는 두 차례의 별도 트래픽 급증 상황에서 저를 구해 주었습니다.

내가 계속해서 주장하는 오픈 소스의 논거

누군가 오픈 소스 모델이 "충분히 좋긴 하지만" "훌륭한" 수준은 아니라고 말할 때마다, 저는 지난 분기의 운영 수치(production numbers)를 보여주고 싶습니다. 우리는 오픈 웨이트 (open weights)가 타협을 의미하던 시대를 지났습니다. DeepSeek V4 Pro는 대부분의 추론 벤치마크 (reasoning benchmarks)에서 프런티어 폐쇄형 모델 (frontier closed models)들과 경쟁할 만한 수준이며, Kimi K2는 GPT-4o를 사용한다면 막대한 비용이 들었을 긴 문맥 (long-context) 작업에서도 제 몫을 다합니다. 라이선스(licensing) 하나만으로도 전환할 가치가 충분합니다. 저는 미세 조정 (fine-tune)을 할 수 있고, 셀프 호스팅 (self-hosting)을 위해 더 작은 모델로 증류 (distill)할 수 있으며, 편향 (bias) 여부를 확인하기 위해 웨이트 (weights)를 감사 (audit)할 수 있고, 누구의 허락도 구하지 않고 결과를 배포할 수 있습니다.

폐쇄형 소스 (Closed-source) 벤더들은 안전성, 신뢰성 또는 측정할 수 없는 다른 품질 때문에 자신들의 모델이 프리미엄을 받을 가치가 있다고 말할 것입니다. 제 경험은 다릅니다. 제가 직접 제어할 수 있는 인프라 위에서, 읽고 수정할 수 있는 코드를 사용하여, 유사한 품질로 동일한 워크로드 (workload)를 40~65% 더 낮은 비용으로 실행할 수 있다면, 계산 결과는 명확합니다. Apache 2.0 및 MIT 라이선스 생태계가 랭킹 워크로드 (ranking workload) 카테고리에서 승리했습니다. 이것은 논쟁의 여지가 없는 사실입니다.

부차적인 이점도 있습니다. DeepSeek와 Kimi K2 모두 자신들의 학습 레시피 (training recipes)와 평가 하네스 (evaluation harnesses)를 공개하기 때문에, 저는 직접 그들의 벤치마크를 재현할 수 있습니다. 이는 폐쇄형 API (closed API)로는 절대 할 수 없는 일입니다. 재현성 (Reproducibility)은 제가 사용하는 도구를 신뢰할 수 있음을 의미하며, 신뢰는 밤에 더 편안하게 잠들 수 있음을 의미합니다.

솔직한 주의사항

모든 것이 완벽하다고 말한다면 거짓말일 것입니다. DeepSeek V4 Flash는 100K 토큰을 넘어서는 매우 긴 문맥에서 가끔 환각 (hallucinate) 현상을 보이며, 저는 이러한 엣지 케이스 (edge cases)를 위해 검증 단계를 추가해야 했습니다. Kimi K2의 API는 특정 지역의 비피크 시간대 (off-peak hours)에 첫 번째 토큰 생성 속도가 약간 느려질 수 있는데, 저는 작은 웜업 풀 (warm-up pool)을 추가하여 이를 해결했습니다. 두 문제 모두 결정적인 결함 (deal-breaker)은 아니지만, 도입을 결정하기 전에 이 점을 알고 있어야 합니다.

또 다른 주의 깊게 살펴봐야 할 점은 컨텍스트 윈도우 (context window) 크기입니다. DeepSeek V4 Pro는 200K를 제공하며, 이는 매우 관대한 수준입니다. 반면 Kimi K2의 실질적인 컨텍스트 (context)는 마케팅 수치에서 제시하는 것보다 실제로는 더 작습니다. 저의 랭킹 (ranking) 워크로드에서는 이 점이 문제가 되지 않았지만, 문서 전체를 요약하는 작업을 수행한다면 배포하기 전에 반드시 재확인하십시오.

두 달간의 사용 후 결론

만약 여러분이 2026년에 랭킹 (ranking) 워크로드를 운영하고 있다면, DeepSeek와 Kimi K2를 선택해야 할 이유는 결코 사소하지 않습니다. 이는 개발자로서의 자유를 존중하는 인프라 위에서, 측정 가능한 품질 저하 없이 40~65%의 비용 절감을 가져다줍니다. 이미 OpenAI 호환 스택 (OpenAI-compatible stack)을 사용 중이라면 설정에 10분도 채 걸리지 않습니다. 탈출 전략 (exit ramp)도 깔끔합니다. 라이선스는 허용적 (permissive)이며, 벤치마크 (benchmarks)는 재현 가능합니다.

폐쇄형 소스 (closed-source) 모델을 절대 사용하지 말라고 말씀드리는 것은 아닙니다. 그들도 나름의 역할이 있습니다. 하지만 특히 랭킹 (ranking) 작업에 있어서, 그리고 솔직히 제 프로덕션 트래픽의 대부분에 있어서는 오픈 소스 (open source) 경로가 엄격하게 더 낫습니다. 저는 전환했고, 저희 팀도 전환했으며, 저희의 월간 청구서가 그 결정에 감사하고 있습니다.

직접 시도해보고 싶다면, 특정 연구소의 SDK에 종속되지 않고 시작할 수 있는 가장 간단한 방법으로 제가 아는 바로는 Global API가 있습니다. 이들은 184개의 모델을 통합하여 하나의 OpenAI 호환 엔드포인트 (OpenAI-compatible endpoint)를 통해 모두 노출하며, 커피 한 잔을 내리는 정도의 시간 안에 실제 API 호출을 시작할 수 있습니다. 아직 확인해보지 않으셨다면 살펴볼 가치가 있습니다.