동일한 품질, 4분의 1의 비용: DeepSeek Flash를 선택해야 할까요?

$0.0236은 Fireworks 가격표 기준으로 기술을 포함하여 완전한 에이전트 작업 (agentic task)을 실행하는 데 드는 DeepSeek V4 Flash의 비용입니다. Claude Haiku 4.5는 동일한 작업에 $0.10가 소요됩니다. Sonnet 4.6은 $0.30가 소요됩니다.

성능 측면에서 살펴보면, 우리의 평가 (evals)에서 Flash는 82.3점을, Haiku는 82.9점을 기록했습니다. 따라서 기술이 적용되었을 때 두 모델은 대등한 수준임을 평가 결과가 보여주지만, 한쪽의 비용이 4배 더 높습니다.

우리의 평가에서는 19개의 모델 구성 (model configurations)을 동일한 벤치마크 하네스 (benchmark harness)를 통해 실행했습니다. 모델에 요청한 작업들은 실제 에이전트 작업 (agentic tasks)이었으며, 우리는 총 토큰 수 (total token counts)를 측정하고 제공업체의 청구 가격을 확인했습니다. 솔직히 말해서, 우리가 예상했던 가치 이야기는 "저렴한 모델은 함정이다"였습니다. 하지만 우리가 발견한 것은 그보다 더 흥미로웠으며, 특히 어떤 규모로든 에이전트를 운영하고 있다면 매우 유용할 내용이었습니다.

첫째, Pro 모델과의 비교

DeepSeek V4는 Pro와 Flash 두 가지 티어 (tiers)로 출시됩니다. 우리의 평가 실행 결과, Pro는 작업당 $0.183이 소요되고 Flash는 작업당 $0.0236이 소요됩니다. 이는 동일한 모델 제품군 내에서 7.7배의 가격 차이가 있음을 의미합니다.

추가 비용을 지불했을 때 얻는 결과물을 살펴보면, 단 3점 차이뿐입니다. 평가 결과에서 Pro는 85.3점을, Flash는 82.3점을 기록했습니다. 이를 규모에 맞춰 계산해 보면, 월 10,000회의 작업은 연간 $19,000의 추가 비용이 발생하며, 월 100,000회의 작업은 연간 $190,000의 추가 비용이 발생합니다. 3점 차이라면 품질 관점에서는 그리 눈에 띄지 않을 수도 있습니다.

달러당 점수 (Points-per-dollar)

평가 점수당 비용을 살펴보면 품질과 비용 사이의 비율을 얻을 수 있으며, 이는 모델의 전반적인 품질이 귀하의 요구 사항을 충족하는 한 유용할 수 있습니다.

모델	점수 (기술 포함)	$/작업	pts/$
DeepSeek V4 Flash	82.3	$0.024	3,482
...

귀하의 비용 모델이 아마도 놓치고 있는 수치

토큰당 비용 (Cost-per-token)은 모든 사람이 인용하는 경향이 있으며, 의사 결정을 내릴 때 가장 중요한 요소로 흔히 잘못 사용하는 수치입니다. 또한, 문제를 해결하기 위한 턴 수 (turns per solve)를 함께 모니터링하지 않는다면 예산을 조용히 초과하게 만드는 수치이기도 합니다.

Flash의 평균값은 작업당 약 20턴(turns)으로 꽤 관리 가능한 수준입니다. 하지만 저희 데이터셋에서 발생한 최악의 단일 사례는 그보다 약 10배에 달했습니다. 이 정도 등급의 모델들에게는 드문 일이 아니지만, 달러 기준으로 보면 단일 작업 하나가 평균 작업 10개만큼의 비용을 소모하는 셈입니다. 이를 수천 개의 동시 에이전트 실행(concurrent agent runs)으로 곱하면, 토큰당 추정치(per-token estimate)에서는 나타나지 않았던 예산 문제가 발생하기 시작할 수 있습니다.

대부분의 팀이 이를 놓치는 이유는 에이전트 프레임워크(agent frameworks)가 기본적으로 토큰 수(token counts)를 보여주기 때문입니다. 꼬리 위험(fat-tail) 비용 폭발을 실제로 유발하는 변수인 턴 수(turn counts)는 명시적으로 로그를 남겨야 하는 경우가 많습니다.

에이전트를 설계할 때 토큰뿐만 아니라 턴 수도 측정(instrument)하세요. 중앙값(median)과 95백분위수(95th percentile)를 파악해야 합니다. 타임아웃 정책(timeout policies)을 설정할 때 중앙값이 아닌 95백분위수를 기준으로 설정하십시오. 그렇지 않으면 유효한 실행을 강제로 종료하거나, 예상치 못한 청구서를 떠안게 될 것입니다.

기술(skill)은 작업의 절반을 수행하는 것이다

여기서 매우 솔직하게 말해야 할 한 가지는, Flash의 82.3점은 **기술 증강 점수(skill-augmented score)**라는 점입니다. 기술이 없다면 Flash의 점수는 64.1점입니다. 기술이 18.2점을 더해준 것입니다.

이러한 상승은 실제적이지만, 해당 기술이 정밀하고, 범위가 잘 정해져 있으며, 작업과 실제로 관련이 있는지에 따라 매우 조건부적으로 달라집니다. 모호한 기술은 점수를 64.1점의 기준선(baseline) 근처로 다시 끌어내리지만, 날카로운 기술은 82.3점을 얻게 해줍니다.

이는 대부분의 모델 평가(model evaluations)가 인정하는 것보다 더 중요합니다. 왜냐하면 플레이그라운드(playground)에서 테스트하는 모델은 대개 기술이나 관련 컨텍스트(context)를 사용하지 않고, 오직 순수 능력(raw capability)만을 사용하기 때문입니다.

더 나아가기: 더 저렴한 모델을 찾고 직접 테스트하세요

위의 분석은 저희가 측정한 가장 저렴한 호스팅 옵션들을 보여줍니다. 하지만 이를 더 밀어붙이고 싶다면 명확한 다음 단계가 두 가지 있으며, 두 가지 모두 생각보다 접근하기 쉽습니다.

이 벤치마크에 포함된 모델 중 GPT, Anthropic 또는 Gemini가 아닌 모든 모델은 공개적으로 사용 가능한 가중치 (weights)를 가지고 있습니다. DeepSeek V4 Flash, GLM 5.1 등은 모두 직접 실행할 수 있습니다. 직접 실행할 경우, 한계 토큰 비용 (marginal token cost)은 거의 0에 가깝게 떨어집니다. 호출당 가격이 아니라 컴퓨팅 (compute) 비용 (GPU 대여 또는 소유한 인프라)에 대해서만 비용을 지불하게 됩니다.

자체 호스팅 (self-hosting)의 수학적 계산은 특정 볼륨 임계값 이상일 때만 의미가 있습니다. 운영 오버헤드 (ops overhead)와 GPU 비용이 당연히 공짜는 아니지만, 한 달에 수만 개의 에이전트 작업 (agentic tasks)을 실행한다면 교차점 (crossover point)은 예상보다 낮습니다.

이 벤치마크의 핵심 기술 (skill)은 +18.2점의 작업을 수행하는 것입니다. 여기서 던져야 할 질문은 이것입니다: 그 기술은 어디에서 왔으며, 그것이 정말로 좋은지 어떻게 알 수 있는가?

Tessl 레지스트리는 귀하의 기술에 대한 품질, 영향력 및 보안 태세 (security posture)를 확인하기 시작하기에 좋은 곳입니다. 기술을 처음부터 직접 작성하기 전에, 이미 존재하는 기술이 있는지, 그리고 그 뒤에 평가 데이터 (eval data)가 있는지 확인하십시오.

기술을 적절하게 평가하십시오. 두 가지 유형의 평가를 실행할 수 있습니다: 리뷰 (reviews, 귀하의 기술이 잘 구조화되었는지에 대한 자동화된 품질 평가)와 작업 평가 (task evals, 기술이 실제 작업에서 에이전트 성능을 실제로 향상시키는지 측정하는 엔드 투 엔드 (end-to-end) 실행)입니다. 작업 평가 출력값은 Flash 벤치마크의 기반이 되는

작업당 $0.0236인 DeepSeek V4 Flash가 가성비 선택지입니다. Haiku는 0.6점 차이에 4배 더 비쌉니다. Pro는 3점 차이에 7.7배 더 비쌉니다.
비용으로 순위를 매기기 전에 품질 하한선을 설정하세요. pts/$ (점수 대비 비용) 지표는 저렴하지만 성능이 낮은 모델들을 평탄하게 만듭니다. 80점 이상일 때 비로소 유의미한 신호가 됩니다.
단순히 토큰(token)이 아니라 턴(turn) 단위로 측정하세요. 여러분의 95 백분위수(95th percentile) 턴 횟수는 아무도 기록하지 않는 예산 변수입니다.
기술의 핵심은 절반의 작업만 수행하는 것입니다. 잘못된 기술은 점수를 다시 베이스라인(baseline) 수준으로 떨어뜨립니다. 느낌(vibes)이 아니라 작업 평가(task evals)를 통해 여러분의 기술을 평가하세요.
직접 실행해 볼 수 있습니다. 20~30개의 작업, 턴 로깅(turn logging), 스프레드시트, 그리고 Tessl의 평가 시스템만 있으면 됩니다.
오픈 소스 모델을 셀프 호스팅(self-hosting)하는 것도 실제적인 옵션입니다. 가중치(weights)는 공개되어 있으며, 운영(ops) 측면의 트레이드오프(trade-off)는 실재합니다. 모델을 대체할 수 있는지 확인하려면 여러분의 모델로 직접 평가를 수행해야 합니다.

티어 이름은 Flash가 저렴하다는 것을 알려주었지만, 데이터는 그것이 성능 또한 좋다는 것을 말해줍니다. 이제 여러분이 구축하고 있는 것에 대해서도 이 사실이 유효한지 알아낼 수 있는 도구를 갖추게 되었습니다.