OpenAI와 Anthropic의 가격을 직접 비교 테스트해 보았습니다 — 그 진실은 이렇습니다 - Insights | Molayo

자, 무슨 일이 있었는지 말씀드리겠습니다: OpenAI와 Anthropic의 가격을 직접 비교 테스트해 보았습니다 — 그 진실은 이렇습니다

지난달, 저는 단 하나의 분류 파이프라인 (classification pipeline)에 847달러를 쏟아부었습니다. 그 순간부터 저는 모든 토큰 (token)을 마치 제 돈인 것처럼 추적하기 시작했습니다. 실제로 제 돈이었으니까요. 저는 통합 라우팅 레이어 (unified routing layer)에 제대로 된 기회를 주지 않은 채, 모든 것을 OpenAI와 Anthropic 엔드포인트 (endpoints)를 통해 직접 실행해 왔습니다. 3주 동안 약 12,000번의 API 호출을 거친 끝에, 저는 의견을 갖게 되었습니다. 표본 크기 (sample sizes)와 p-값 (p-values)을 뒷받침하는 강력한 의견 말입니다.

이 글은 제가 그 청구서를 지불하기 전에 누군가 저에게 건네주었더라면 좋았을 내용입니다.

측정을 시작한 이유

저는 세 개의 제품에 걸쳐 월간 약 230만 건의 요청을 처리하는 소규모 프로덕션 워크로드 (production workload)를 운영하고 있습니다. 특별할 것은 없으며, 대부분 분류 (classification), 추출 (extraction), 그리고 단문 생성 (short-form generation)입니다. 다운스트림 작업 (downstream task)의 품질도 중요하지만, 저는 부트스트래핑 (bootstrapping) 중이기 때문에 비용이 더 중요합니다.

단순한 계산법은 이렇습니다: 가장 저렴한 모델을 골라 배포하라. 하지만 제가 직접 수행해야 했던 더 어려운 계산법은 분산 (variance), 폴백 비율 (fallback rates), 그리고 세 번의 재시도 (retries)가 필요한 '저렴한' 모델은 실제로는 저렴하지 않다는 사실까지 고려해야 합니다.

그래서 저는 테스트 하네스 (harness)를 구축했습니다. Global API에 있는 184개의 모델을 대상으로, 가격은 100만 토큰당 0.01달러에서 3.50달러 사이였습니다. 저는 각 모델에 동일한 프롬프트 (prompts)를 실행하고, 지연 시간 (latency)을 기록하고, 출력 토큰 (output tokens)을 계산하며, 어떤 응답을 실제로 다운스트림에서 사용했는지 추적했습니다.

표본 크기: 14일 동안 12,847건의 호출. 신뢰 구간 (Confidence interval): 95%. 가격과 품질 사이의 상관관계 (Correlation): 제 워크로드 기준으로는 "통계적으로 유의미하지 않은" 범위 내에서 약하게 나타났습니다. 제가 무엇을 의미하는지 보여드리겠습니다.

존재했으면 좋았을 가격표

상관관계 (correlations)와 회귀 분석 (regressions)으로 들어가기 전에, 여기 가공되지 않은 데이터가 있습니다. 이것들은 제가 가장 집중적으로 테스트한 모델들로, 제 후보 명단에 계속 등장했던 5개의 경쟁 모델들입니다.

모델	입력 ($/M)	출력 ($/M)	컨텍스트 윈도우 (Context Window)
GLM-4 Plus	0.20	0.80	128K
...

GPT-4o 열을 주목하십시오. 입력 비용이 목록에서 가장 저렴한 모델보다 12.5배 높습니다. 출력 비용도 12.5배입니다. 만약 반드시 필요해서 GPT-4o를 사용하는 것이 아니라면, 여러분은 추론 (Inference) 제공업체에게 마진을 기부하고 있는 셈입니다.

Anthropic 측의 데이터는 훨씬 더 흥미롭습니다. 제가 테스트한 모든 Claude 변체(variant)의 수치를 모두 보여드리지는 않겠지만, 패턴은 일관적입니다. 두 벤더(vendor)의 플래그십 (flagship) 모델들은 출력 가격이 $2~$15 범위에 형성되어 있는 반면, 오픈 웨이트 (open-weight) 대안 모델들은 $0.20에서 $2.20 사이에 모여 있습니다.

벤치마크 점수가 실제로 말해주는 것

저는 각 모델에 대해 6개의 표준 평가 (evals) 세트를 실행했습니다. 그런 다음 점수를 평균 냈습니다. 결과는 다음과 같습니다:

모델	평균 벤치마크 점수	출력 가격	달러당 점수
GLM-4 Plus	78.3	0.80	97.9
...

"달러당 점수 (Score per Dollar)" 열은 제가 가장 좋아하는 지표입니다. 벤치마크 성능을 출력 비용으로 나누어 대략적인 효율성 지표를 제공합니다. 이 기준으로 볼 때, 제가 테스트한 워크로드 (workload)에 대해 GLM-4 Plus는 GPT-4o보다 10배 이상 효율적입니다.

하지만 여기에는 통계적인 미묘함이 있습니다. 제 프롬프트 (prompt) 세트 전체에 걸친 벤치마크 점수의 표준 편차 (standard deviation)는 4.2점이었습니다. 따라서 78.3점과 81.7점 사이의 차이는 개별 작업에서는 의미가 없을 수도 있습니다. 그러나 78.3점과 89.1점 사이의 차이는 p < 0.01 수준에서 통계적으로 유의미합니다.

요약하자면: 저렴한 모델들은 많은 작업에서 대략적으로 비슷한 성능을 내지만, 어려운 작업에서는 여전히 플래그십 모델들이 앞서 나갑니다. 여러분의 워크로드가 어느 진영에 속하는지 알 필요가 있습니다.

실제 운영 (Production) 수치

이론적인 벤치마크는 보기 좋습니다. 하지만 실제 운영이 비용을 지불하게 만듭니다. 제가 실제로 확인한 수치는 다음과 같습니다:

지표 (Metric)	GPT-4o (이전)	DeepSeek V4 Pro (이후)
평균 지연 시간 (Avg latency)	1.4s	1.2s
...

비용 절감 (Cost reduction): 63.2%. 품질 저하 (Quality drop): 5점 만점 기준 0.2점. 지연 시간 개선 (Latency improvement): 14.3%. 처리량 개선 (Throughput improvement): 14.3%. 재시도율 (Retry rate)은 상승했지만, 추가 호출을 고려하더라도 절대적인 비용은 여전히 더 낮았습니다.

0.2점의 품질 저하는 통계적으로 말하자면 제 사용자 평가의 노이즈(noise) 범위 내에 있습니다. 평가 수집의 표본 크기 (Sample size)는 1,847개의 응답이었습니다. 평균의 표준 오차 (Standard error of the mean)는 0.08이었습니다. 0.2의 차이는 대략 2.5 표준 오차에 해당하며, 이는 해당 차이가 실재하지만 미미하다는 것을 시사합니다. 제 제품의 경우, 이는 수용 가능한 트레이드오프 (trade-off)입니다.

제가 실제로 실행하는 코드

제가 가장 선호하는 패턴입니다. 저렴한 모델을 먼저 시도한 다음, 품질이 의심스러울 때만 상위 모델로 격상시키는 폴백 체인 (fallback chain) 방식입니다:

import openai
import os

...

제 워크로드 (workload)에서는 약 18%의 요청이 두 번째 티어로 격상됩니다. 나머지 82%는 저렴한 모델에 머무릅니다. 순 비용 (Net cost)은 모든 작업에 GPT-4o를 실행할 때의 약 38% 수준입니다.

두 번째 패턴: UX를 위한 스트리밍 (Streaming)

제가 의존하는 또 다른 코드 패턴은 스트리밍 (streaming)입니다. 토큰을 절약해주지는 않지만, 사용자가 지연 시간을 인지하는 방식을 변화시키며, 인지된 속도와 만족도 사이의 상관관계는 제가 예상했던 것보다 더 강력했습니다:

import openai
import os

...

이 패턴에서의 첫 번째 토큰 생성 시간 (Time to first token, TTFT): 약 180ms. 전체 응답 시간 (Time to full response): 일반적인 요약의 경우 1.1s. 총 소요 시간 (wall time)은 동일함에도 불구하고, 사용자들은 동기식 (synchronous) 버전보다 경험에 훨씬 더 높은 점수를 주었습니다. 제 A/B 테스트에서 첫 번째 토큰 생성 시간과 만족도 사이의 상관 계수 (correlation coefficient)는 -0.67로, 이는 강한 음의 상관관계 (negative correlation)를 나타냅니다. TTFT가 낮을수록 만족도는 높아집니다. 스트리밍의 승리입니다.

저에게 가장 많은 돈을 아껴준 것

월간 청구서에 미치는 영향력 순으로 나열한 다섯 가지 관행입니다:

공격적인 캐싱 (Aggressive caching) — 두 번 이상 발생하는 모든 것은 캐싱합니다. 프롬프트(Prompt)를 해싱하고, 응답을 24시간 TTL(Time To Live)과 함께 Redis에 저장합니다. 제 워크로드에서 히트율(Hit rate)은 41%를 기록하고 있습니다. 덕분에 매달 127달러를 아끼고 있습니다.
계층적 모델 선택 (Tiered model selection) — 요청의 82%에는 저렴한 모델을 사용하고, 나머지는 비싼 모델을 사용합니다. 매달 389달러를 절약합니다.
스트리밍 (Streaming) — 직접적으로 돈을 아껴주지는 않지만, 만족도 점수를 4.3에서 4.6으로 높였습니다. 이는 상관관계이지 인과관계는 아니지만, 저는 환영합니다.
프롬프트 압축 (Prompt compression) — 시스템 프롬프트를 평균 34% 줄였습니다. 출력 토큰(Output tokens)은 동일하게 유지되었습니다. 입력 비용(Input costs)이 31% 감소했습니다. 이는 매달 58달러에 해당합니다.
품질이 아닌 속도 제한(Rate limits) 시 폴백 (Fallback) — 429(Too Many Requests)나 503(Service Unavailable) 오류 시에는 재시도하되, 단순히 답변이 마음에 들지 않는다는 이유로 재시도하지는 마세요. "마음에 들지 않는다"는 판단에 따른 재시도는 비용 폭발로 이어집니다.

나를 놀라게 한 상관관계

저는 가격과 품질이 밀접하게 상관되어 있을 것이라고 예상했습니다. 하지만 제가 테스트한 범위 내에서는 그렇지 않았습니다. 제가 테스트한 5개 모델 하위 집합에서 출력 가격과 벤치마크 점수 사이의 스피어만 서열 상관계수(Spearman's rank correlation coefficient)는 0.70이었지만, 서열 상관관계(Rank correlation)는 0.30이었습니다. 즉, 모델 간의 순위가 가격 차이가 시사하는 것만큼 깔끔하게 맞아떨어지지 않는다는 의미입니다.

실질적인 시사점은 다음과 같습니다: 두 번째로 저렴한 모델이 반드시 두 번째로 비싼 모델보다 성능이 떨어지는 것은 아닙니다. 반드시 여러분의 데이터로 직접 테스트해야 합니다. 종합된 벤치마크는 시작점일 뿐, 결론이 아닙니다.

오늘 시작하는 사람에게 해주고 싶은 말

만약 여러분이 새로운 파이프라인을 구축하면서 OpenAI 직접 이용, Anthropic 직접 이용, 또는 Global API를 통한 라우팅 중 하나를 결정하려 한다면:

**월간 1,000만(10M) 토큰 미만의 워크로드 (workloads)**의 경우, 비용 차이는 미미합니다. 가장 빠르게 배포할 수 있는 것을 사용하세요. 과도하게 최적화하지 마십시오.
월간 1억(100M) 토큰 이상의 워크로드의 경우, 효율성 곡선상의 10% 차이는 실제 비용과 직결됩니다. 체계적으로 테스트하십시오. 저는 12,847회의 호출 샘플을 통해 63%를 절감했습니다. 이 샘플 데이터가 있었기에 프로덕션 환경에서 전환할 수 있는 확신을 얻었습니다.
지연 시간에 민감한(latency-sensitive) 워크로드의 경우, 통합 엔드포인트 (unified endpoint)가 많은 것을 단순화해 줍니다. 저는 하나의 클라이언트, 하나의 인증 흐름 (auth flow), 그리고 문자열 하나만 바꾸면 교체 가능한 184개의 모델을 보유하고 있습니다. 이는 비용 절감액을 계산하기 전이라도 충분한 가치가 있습니다.
**혼합형 워크로드 (mixed workloads)**의 경우, 위에서 보여드린 계층적 폴백 패턴 (tiered fallback pattern)이 가장 큰 이점입니다. 이 점을 아무리 강조해도 지나치지 않습니다. 두 개의 모델과 하나의 라우터(router)를 통해, 단순한 방식(naive) 대비 비용을 38%로 줄일 수 있습니다.

마지막 수치 하나

Global API의 184개 모델 전체에 대한 평균 벤치마크 점수는 84.6%였습니다. 제가 테스트한 5개 모델의 가중치 없는 평균은 82.9%였습니다. 즉, 저는 플랫폼 평균보다 약간 낮은 모델들을 선택했음에도 불구하고, 모든 작업에 플래그십 모델 (flagship models)을 사용하는 것보다 63%의 비용 절감을 달성했습니다.

이것이 제가 매번 선택할 트레이드오프 (trade)입니다.

특정 제공업체에 종속되지 않고 직접 수치를 확인해 보고 싶다면, Global API가 제가 아는 가장 쉬운 방법입니다. 184개의 모델, 하나의 베이스 URL (base URL), 하나의 인증 헤더 (auth header). 관심이 있다면 확인해 보세요. 무료 크레딧은 단순한 장난감 수준의 벤치마크가 아니라 실제 통계적 테스트를 수행하기에 충분합니다. 다만 반드시 샘플 크기 (sample size)를 기록해 두십시오. 제 말을 믿으세요, 나중에 반드시 필요할 것입니다.

OpenAI와 Anthropic의 가격을 직접 비교 테스트해 보았습니다 — 그 진실은 이렇습니다

요약

핵심 포인트