DeepSeek V4와 V4 Flash를 나란히 테스트해 보았습니다 — 진실은 이렇습니다 - Insights | Molayo

지난달 새벽 2시, 저는 우리 회사의 LLM (Large Language Model) 비용이 단 일주일 만에 네 자릿수(달러)로 급증한 이유를 파악하기 위해 스프레드시트를 뚫어지게 쳐다보고 있었습니다. 범인은 무엇이었을까요? 바로

모델	입력 (Input)	출력 (Output)	컨텍스트 윈도우 (Context Window)
DeepSeek V4 Flash	$0.27	$1.10	128K
...

잠시 GPT-4o 행을 유심히 살펴보시기 바랍니다. 입력 토큰 100만 개당 $2.50, 출력 토큰 100만 개당 $10.00입니다. "모델이 지불해야 하는 적정 비용"과 "그들이 할 수 있기 때문에 청구하는 비용" 사이의 벽이 이토록 명확하게 느껴진 적이 없었습니다. global-apis.com의 가격 범위는 토큰 100만 개당 $0.01에서 $3.50까지 걸쳐 있으며, 오픈 웨이트 (open weights) 모델들은 저렴한 쪽에 편안하게 자리 잡고 있습니다. 반면 독점적이고 폐쇄적이며 울타리가 쳐진 (walled garden) 서비스들은? 이들은 비싼 쪽에 몰려 있습니다. 우연일까요? 저는 아니라고 생각합니다.

직접 벤치마크 수행하기

마케팅 페이지들은 벤치마크 수치를 남발하는 것을 좋아합니다. 저는 모델들이 제 실제 워크로드에서 실제로 무엇을 하는지 확인하고 싶었습니다. 저는 작은 평가 하네스 (evaluation harness)를 구축했습니다. 거창한 것은 아니고, 고정된 프롬프트 세트를 실행하고 예상 출력값과 비교하여 응답을 채점하는 스크립트일 뿐입니다. 세 가지 카테고리로 나누었습니다: 코딩 작업, 추론 작업, 그리고 긴 컨텍스트 요약 (long-context summarization)입니다.

DeepSeek V4 Pro는 제가 만든 맞춤형 스위트 (suite)에서 평균 84.6%의 점수를 기록했는데, 솔직히 말해서 저는 눈을 의심했습니다. 지연 시간 (latency)은 첫 번째 토큰까지 약 1.2초 내외였고, 스트리밍 시 지속적인 처리량 (throughput)은 초당 약 320 토큰에 달했습니다. GPT-4o 비용의 4분의 1도 안 되는 모델치고는 이 수치들이 거의 불공평하게 느껴질 정도였습니다.

DeepSeek V4 Flash는 원시 품질 (raw quality) 면에서는 약간 낮게 나왔지만, 가성비 (price-to-performance ratio) 면에서는 정말 압도적입니다. 입력 $0.27, 출력 $1.10의 가격으로, 대규모 환경에서 적절한 품질이 필요한 대량 워크로드에 최적화되어 있습니다. 저는 이를 분류 파이프라인 (classification pipeline)에 사용했는데, 이전에 사용하던 더 비싼 모델과 비교했을 때 사용자 만족도 점수는 전혀 변하지 않았습니다.

코드로 직접 구현해 보기

다음은 테스트 중에 제공업체를 교체하기 위해 사용한 실제 코드 스니펫 (snippet)입니다. 이것이 OpenAI 호환 인터페이스의 묘미입니다. 진정한 의미의 드롭인 교체 (drop-in replacement)가 가능합니다:

import openai
import os

...

단 하나의 문자열을 변경함으로써 모델 사이를 전환할 수 있다는 점에 주목하십시오. 만약 여러분의 코드베이스에 OpenAI 클라이언트가 하드코딩되어 있다면, 여러분은 말 그대로 파라미터 하나만 바꾸면 DeepSeek V4 Pro 또는 global-apis.com에 있는 다른 184개 모델 중 하나를 실행할 수 있는 상태입니다. 이것이 바로 의도된 대로 작동하는 개방형 생태계(open ecosystem)입니다. 독점적인 SDK도, 특정 벤더 전용의 번거로운 절차도 없이, 오직 HTTP와 JSON만 존재합니다.

스트리밍 (streaming) 실험을 위해, 초당 토큰 수 (tokens per second)를 직접 측정할 수 있는 두 번째 헬퍼 (helper) 함수를 추가했습니다:

import time

def stream_and_measure(prompt: str, model: str):
...

실전 현장에서 얻은 프로덕션 (Production) 교훈

벤치마크 (benchmarks)를 확보한 후, 실제 트래픽을 마이그레이션 (migrating)하기 시작했습니다. 고생하며 배운 몇 가지 사실은 다음과 같습니다:

마진 (margins)에 모든 것이 달려있다고 생각하고 캐싱 (Cache) 하십시오. 실제로 그렇기 때문입니다. API 앞에 간단한 Redis 레이어를 추가함으로써 캐시 히트율 (cache hit rate)을 40%까지 끌어올렸고, 이 단 하나의 변경만으로 월간 비용의 약 3분의 1을 절감했습니다. DeepSeek 모델들은 동일한 프롬프트 접두사 (prompt prefixes)에 잘 반응했기 때문에, 중복 제거 (deduplication) 작업이 수월했습니다.

사용자와 맞닿는 모든 부분은 스트리밍 (Stream) 하십시오. "이 앱은 느리게 느껴진다"와 "이 앱은 실제로는 느려도 빠르게 느껴진다" 사이에는 심리적인 차이가 존재합니다. 스트리밍은 우리 채팅 인터페이스의 체감 지연 시간 (perceived latency)을 극적으로 낮추었습니다. Pro 모델에서 초당 약 320 토큰의 처리량 (throughput)을 기록하면서, 첫 단어들이 거의 즉각적으로 나타납니다.

복잡도에 따라 라우팅 (Route) 하십시오. 저는 단순한 쿼리는 DeepSeek V4 Flash로 보내고, 더 어려운 추론 (reasoning) 작업은 DeepSeek V4 Pro로 격상시키는 계층형 시스템을 구축했습니다. 사소한 분류 (classifications) 및 의도 탐지 (intent detection)의 경우, GA-Economy와 같은 더 저렴한 옵션을 사용할 수도 있으며, 이는 Flash 모델보다도 50%의 비용 절감 효과를 가져다줍니다. 품질은 수용 가능한 수준으로 유지되었고, 전체 지출은 추가로 30% 감소했습니다.

품질을 지속적으로 추적하십시오. 우리는 모든 응답에 대해 thumbs-up/thumbs-down(좋아요/싫어요) 피드백을 수집하기 시작했습니다. 폐쇄형 소스 (closed source) 제공업체들은 이를 위한 대시보드를 제공했지만, 그들 자신의 모델 성능이 저하되었을 때 우리에게 알려줄 인센티브가 없었습니다. 통합 엔드포인트 (unified endpoint)를 통해 접근 가능한 오픈 웨이트 (open-weights) 모델을 사용하면, 제가 직접 품질을 검증하고 성능 저하 (regression)가 나타나는 즉시 우회 경로를 설정할 수 있습니다.

폴백 경로 (fallback path)를 구축하십시오. 속도 제한 (rate limits)은 발생하기 마련입니다. API 중단 (API outages)도 발생합니다. 저는 아무리 신뢰할 수 있는 제공업체라도 운이 나쁜 날이 있다는 것을 뼈저리게 배웠습니다. 저는 먼저 DeepSeek V4 Pro를 시도하고, DeepSeek V4 Flash로 폴백(fallback)하며, 마지막으로 우리 자체 인프라에서 실행되는 Qwen3-32B 인스턴스로 넘어가는 폴백 체인을 구축했습니다. 세 단계의 중복성 (redundancy)을 갖추었으며, 각각은 오픈 소스 (open source)이거나 오픈 웨이트 (open weights)입니다. 독점 (proprietary) 벤더들은 저에게 이를 제공할 수 없으며, 이러한 자유를 복제할 수도 없습니다.

오픈 소스 문제

제가 계속해서 되돌아오게 되는 지점은 이것입니다: 독점적이고 폐쇄적인 가두리 양식장 (walled garden) 형태의 API에 쓰는 모든 1달러는 오픈 소스 커뮤니티로 돌아가지 않는 1달러라는 사실입니다. DeepSeek는 허용적인 조건 하에 모델 가중치 (model weights)를 공개하며, OpenAI Python 클라이언트는 MIT 라이선스이며, OpenAI 호환 규격 (OpenAI-compatible spec) 자체도 본질적으로 사실상의 표준 (de facto open standard)입니다. 이 스택의 모든 계층은 제가 중요하게 생각하는 자유를 존중합니다.

폐쇄형 소스 벤더를 선택할 때, 여러분은 단순히 프리미엄 비용을 지불하는 것이 아닙니다. 여러분은 차세대 벤더 종속 (vendor lock-in)에 자금을 대고 있는 것입니다. 여러분은 모델이 영업 비밀이 되고, 전환 비용 (switching costs)이 여러분을 가두도록 설계되며, 오픈 생태계가 자원 부족에 시달리는 미래를 향해 지갑으로 투표하고 있는 것입니다. 현대의 인터넷을 구축한 MIT 및 Apache 라이선스는 바로 우리가 그런 세상에서 살지 않아도 되도록 존재합니다.

GPT-4o를 사용하는 분들을 비난하려는 의도는 아닙니다. 브랜드 인지도, 도구 생태계(tooling ecosystem), 엔터프라이즈 지원 계약 등 정당한 이유들이 분명히 존재합니다. 하지만 제가 실제 운영 환경(production)에서 목격한 워크로드의 80%에 대해서는, 오픈 웨이트 (open weights) 대안 모델들이 훨씬 적은 비용으로 품질 기준을 충족했습니다. 모델을 즉시 교체(hot-swap)할 수 있는 라우팅 레이어 (routing layer)를 구축하고 나면, 특정 벤더에 종속되는(locked in) 전략적 불이익은 완전히 사라집니다.

나의 관점에서 내린 최종 결론

3주간의 테스트 끝에 제가 내린 결론은 다음과 같습니다. DeepSeek V4 Pro는 실제 추론 (reasoning)이 필요한 모든 작업에 대한 저의 새로운 기본 모델이 되었습니다. 84.6%의 벤치마크 점수와 1.2초의 지연 시간 (latency)은 실제 운영 환경에서 충분한 신뢰성을 제공합니다. DeepSeek V4 Flash는 분류 (classification), 추출 (extraction), 간단한 질의응답 (Q&A)과 같은 대량의 백그라운드 작업을 처리하며, 어떤 진지한 규모의 서비스에서도 경제성이 입증되는 가격대를 보여줍니다. 이 두 모델을 함께 사용함으로써 우리 트래픽의 약 90%를 커버할 수 있었고, 월별로 차이는 있지만 지출을 40%에서 65% 사이로 절감했습니다.

폐쇄형 소스 (closed source) 제공업체가 특정 프롬프트에서 미세하게 더 나은 답변을 줄 수 있을까요? 아마도, 가끔은 그럴 수 있습니다. 하지만 그 격차는 매 분기 좁혀지고 있으며, 오픈 소스로 전환함으로써 얻는 자유의 배당금 (freedom dividend)은 계속 커지고 있습니다. 저는 가중치 (weights)를 검사할 수 있고, 직접 평가 (evals)를 실행할 수 있으며, 코드 한 줄 변경만으로 제공업체를 교체할 수 있고, 예산을 통제할 수 있습니다. 이것이 저에게는 이 기술의 핵심 가치입니다.

특정 벤더에 종속되지 않고 이 모델들을 직접 테스트해보고 싶다면, Global API에서 제공하는 통합 엔드포인트 (unified endpoint)를 살펴보는 것도 가치가 있습니다. 동일한 OpenAI 호환 SDK를 사용하며, 184개의 모델 중 선택할 수 있고, 시작할 수 있는 무료 크레딧 계층도 제공합니다. 유일한 옵션은 아니지만, 저에게 주말을 되찾아준 옵션입니다.

관심이 있다면 확인해 보세요 — global-apis.com/v1. 여러분의 지갑과 내면의 오픈 소스 옹호자가 아마 고마워할 것입니다.

DeepSeek V4와 V4 Flash를 나란히 테스트해 보았습니다 — 진실은 이렇습니다

요약

핵심 포인트

직접 벤치마크 수행하기

코드로 직접 구현해 보기

실전 현장에서 얻은 프로덕션 (Production) 교훈

오픈 소스 문제

나의 관점에서 내린 최종 결론

댓글