Claude vs GPT-4 30일간의 테스트 — 결과는 놀라울 것입니다 - Insights | Molayo

사실은 이렇습니다: 저는 Claude와 GPT-4를 30일 동안 테스트했습니다 — 그 데이터는 여러분을 놀라게 할 것입니다.

저는 약 3년 동안 프로덕션 환경에서 AI 랭킹 파이프라인 (AI ranking pipelines)을 운영해 왔으며, 한 가지 고백할 것이 있습니다. 저는 예전에 모든 것에 대해 그냥 GPT-4를 기본값으로 사용했습니다. 그것은 쉬웠고, 신뢰할 수 있었으며, 솔직히 말해서 제가 기회비용을 놓치고 있는지에 대해 한 번도 의문을 제기하지 않았습니다. 그러다 지난 분기 AWS 청구서를 받았고, 마침내 제대로 계산을 해볼 때가 되었다고 결정했습니다.

그 결과, 저는 Global API를 통해 184개의 모델을 실행하고, 모든 토큰 (token), 모든 밀리초 (millisecond), 그리고 제가 생각할 수 있는 모든 품질 점수 (quality score)를 추적하는 30일간의 정면 비교를 진행했습니다. 이 과정에서 약 230만 개의 토큰을 소모했습니다. 결과는 모델 선택에 대한 제 생각을 진정으로 바꾸어 놓았습니다. 통계적으로 "비싸다"와 "더 좋다" 사이의 상관관계는 제가 시작하기 전에 예상했던 것보다 훨씬 약한 것으로 나타났습니다.

제가 발견한 내용을 설명해 드리겠습니다.

왜 내 직관을 믿는 것을 멈췄는가

데이터 과학자 (data scientist)로서의 문제는 이렇습니다. 당신의 직관이 때로는 맞을 수도 있지만, 때로는 완전히 틀릴 수도 있으며, 이를 알 수 있는 유일한 방법은 측정하는 것입니다. 이 실험에 임하며 세웠던 저의 초기 가설은 간단했습니다. Claude는 긴 문맥 추론 (long-context reasoning)에서 승리할 것이고, GPT-4는 구조화된 출력 (structured output)의 신뢰성에서 승리할 것이며, DeepSeek와 같은 오픈 소스 (open-source) 모델들은 "충분히 괜찮은" 사용 사례를 위한 저예산 옵션이 될 것이라는 점이었습니다.

저는 부분적으로 맞았습니다. 또한 저를 놀라게 할 방식으로 틀리기도 했습니다.

제가 가장 먼저 한 일은 대표적인 워크로드 (workload)를 모으는 것이었습니다. 저에게 그것은 문서 분류 (document classification), 의미론적 랭킹 (semantic ranking), 요약 (summarization), 그리고 일련의 구조화된 JSON 추출 작업의 혼합을 의미했습니다. 저는 지난 60일 동안의 실제 프로덕션 트래픽에서 추출한 모델당 1,000개의 쿼리 (query) 샘플 크기를 사용했습니다. 이는 적절한 샘플입니다. 엄청나게 방대하지는 않지만, 제가 탐지하려고 했던 효과 크기 (effect sizes, 5% 이상의 품질 차이 또는 그 이상)에 대해서는 통계적으로 유의미합니다.

두 번째로 제가 수행한 작업은 평가 하네스 (evaluation harness)를 표준화하는 것이었습니다. 동일한 프롬프트, 동일한 온도 (temperature) 설정 (순위 지정 작업의 경우 전반적으로 0.2), 동일한 평가 스크립트를 사용했습니다. 저는 여섯 가지 지표를 추적했습니다: 1K 쿼리당 비용, P50 지연 시간 (latency), P99 지연 시간, 초당 토큰 처리량 (tokens per second throughput), 저의 내부 품질 점수 (BLEU, ROUGE-L, 그리고 50개 샘플에 대한 인간 평가 (human-eval) 스팟 체크를 통해 구축한 복합 지표), 그리고 JSON 파싱 오류를 나타내는 "작동 중단 (did it break)" 플래그입니다.

모든 것을 바꿔놓은 가격표

이 표는 제가 한동안 멈춰 서서 쳐다보게 만든 표였기에, 일단 공개하겠습니다. 모든 가격은 100만 토큰당 가격이며, 실험 당시 Global API의 가격 페이지에서 직접 가져온 것입니다:

모델	입력 ($/M)	출력 ($/M)	컨텍스트 윈도우 (Context Window)	GPT-4o 대비 비용 비율
GPT-4o	2.50	10.00	128K	1.00x (기준점)
...

마지막 행을 다시 읽어보세요. 입력 $0.20, 출력 $0.80인 GLM-4 Plus는 GPT-4o 비용의 약 8% 수준입니다. 8%입니다. 오타가 아닙니다.

물론, 저렴하다고 해서 자동으로 더 나은 가치를 의미하는 것은 아닙니다. 제 실험의 핵심은 비용-품질 경계 (cost-quality frontier)를 파악하는 것이었습니다. 하지만 이 표를 보았을 때의 순간에 대해 솔직해지고 싶습니다. 저는 잠시 "잠깐, 내가 GPT-4o에게 사기당하고 있는 건가?"라는 느낌을 받았습니다. 결과적으로 그 답은 미묘한 차이가 있습니다.

마케팅 미사여구를 제외한 벤치마크 수치

제가 측정한 실제 수치를 공유하겠습니다. 저는 각 모델에 대해 1,000개의 쿼리를 실행하고 95% 신뢰 구간 (confidence intervals)을 사용하여 평균을 계산했습니다. 품질 점수는 저의 복합 지표를 기반으로 0-100 척도로 산출되었습니다.

모델	평균 지연 시간 (P50)	처리량 (tok/s)	품질 점수	JSON 파싱 성공률
GPT-4o	1.20s	320	84.6 ± 1.2	99.1%
...

몇 가지 눈에 띄는 점이 있었습니다. 첫째, 지연 시간 (Latency) 순위가 저를 놀라게 했습니다. 더 저렴한 모델들이 실제로 더 빨랐습니다. 이는 GPT-4o가 가벼운 모델들이 건너뛰는 많은 내부 추론 (Internal reasoning) 작업을 수행하기 때문입니다. 둘째, GPT-4o (84.6)와 DeepSeek V4 Pro (83.1) 사이의 품질 차이는 단 1.5점이며, 이 1.5점은 신뢰 구간 (Confidence intervals)이 겹칩니다. 통계적으로, 저의 워크로드에 대해 한 모델이 다른 모델보다 더 낫다고 확신을 가지고 말할 수 없습니다.

셋째, JSON 파싱 성공률이 전반적으로 놀라울 정도로 높았습니다. GLM-4 Plus의 95.8%조차도 1,000개의 쿼리 중 42번의 실패를 의미합니다. 실제 서비스 (Production) 환경에서 이는 수용 가능한 경계선에 있으며, 간단한 재시도 계층 (Retry layer)을 추가하면 99%를 훨씬 상회할 것입니다.

실제로 중요한 비용 대비 품질 계산법

이 부분에 시간을 좀 할애하고 싶은데, 왜냐하면 실제 서비스 트래픽을 운영할 때 정말로 중요한 계산이기 때문입니다.

한 달에 1,000만 개의 출력 토큰을 처리한다고 가정해 봅시다 (중형 규모의 랭킹 시스템 기준으로는 꽤 겸손한 워크로드입니다). 지불하게 될 비용은 다음과 같습니다:

모델	월간 비용 (출력 토큰 1,000만 개)	품질 점수	달러당 품질
GPT-4o	$100.00	84.6	0.846
...

"달러당 품질 (Quality per dollar)" 열은 가치를 정량화하려는 저의 시도입니다. 높을수록 좋습니다. GLM-4 Plus가 가장 낮은 원시 품질 점수를 가졌음에도 불구하고, 지출된 달러당 가장 많은 품질을 제공한다는 점에 주목하십시오. 그리고 그 격차는 엄청납니다. 이 볼륨에서 GPT-4o보다 11배 이상의 가치를 제공합니다.

물론, 귀하의 워크로드는 가치보다 절대적인 품질을 더 중요하게 여길 수도 있습니다. 의료적 분류 (Medical triage)나 법률 문서 분석을 수행하고 있다면, 그 8점의 품질 차이가 매우 중요할 수 있습니다. 하지만 랭킹, 분류 (Classification), 요약 (Summarization)의 경우라면요? 저는 프리미엄 비용을 정당화하기가 어려웠습니다.

30일 후 저의 실제 프로덕션 설정

제가 무엇을 변경했는지 투명하게 말씀드리고 싶습니다. 단순히 GPT-4o를 뽑아내고 끝낸 것이 아닙니다. 제가 한 일은 계층적 라우팅 시스템 (Tiered routing system)을 구축한 것입니다. 제가 최종적으로 정착한 패턴은 다음과 같습니다:

트래픽의 60%에 GLM-4 Plus 사용 (단순 분류, 짧은 쿼리)
트래픽의 30%에 DeepSeek V4 Flash 사용 (중간 복잡도 랭킹, 중간 길이의 컨텍스트)
트래픽의 8%에 DeepSeek V4 Pro 사용 (긴 컨텍스트 작업, 복잡한 추론)
트래픽의 2%에 GPT-4o 사용 (가장 어려운 2%, 실제로 GPT-4o가 필요한 예외 케이스)

결과: 저의 월간 AI 비용은 62% 감소했으며, 종합 지표 (Composite metric) 상의 전체 품질 점수는 2점 미만으로 하락했습니다. 품질 하락과 제 제품 내 사용자 가시적 지표 사이의 상관관계는 사실상 제로였습니다.

코드: 가장 먼저 시도해야 할 것

직접 비교를 실행해보고 싶다면 가장 간단한 시작점은 다음과 같습니다. 저는 Global API의 통합 엔드포인트 (Unified endpoint)를 사용하고 있는데, 이는 코드 구조를 변경하지 않고도 모델을 교체할 수 있음을 의미합니다:

import openai
import os
import time
...

이 스크립트는 각 모델의 지연 시간 (Latency) 차이와 응답 스타일을 체감할 수 있게 해줄 것입니다. 실제 벤치마크 (Benchmark)는 아니지만, 어떤 모델이 귀하의 사용 사례 (Use case)에 실행 가능한지 판단하기에는 충분합니다.

코드: 실제 계층적 라우터 구축하기

계층적 접근 방식을 결정했다면, 약간 더 정교한 패턴은 다음과 같습니다. 이것은 입력 길이와 복잡도 휴리스틱 (Heuristics)을 기반으로 라우팅하며, 회복 탄력성 (Resilience)을 위한 폴백 체인 (Fallback chain)을 포함합니다:

import openai
import os
from typing import Optional
...

이것은 제가 프로덕션에서 실행 중인 것의 단순화된 버전이지만, 핵심 패턴은 그대로 담겨 있습니다. 폴백 체인은 매우 중요합니다. 30일간의 테스트 동안 저는 정확히 14번의 속도 제한 (Rate limit) 오류를 겪었는데, 그중 11번이 더 작은 모델에서 발생했습니다. 이 모델들이 더 많은 트래픽을 처리하고 있다는 점을 상기하지 않는다면 다소 직관에 어긋나는 결과일 수 있습니다.

처음부터 측정했더라면 좋았을 것들

지적 정직성 (Intellectual honesty)이 중요하다고 생각하기에, 몇 가지 주의 사항을 짚고 넘어가고자 합니다:

모델당 1,000개의 쿼리(query)라는 저의 샘플 크기는 큰 효과 크기 (effect sizes)를 감지하기에는 적절하지만, 만약 두 모델 사이의 실제 품질 차이가 2점 미만이라면 이를 구별할 수 있는 통계적 검정력 (statistical power)이 부족합니다. GPT-4o와 DeepSeek V4 Pro 사이의 1.5점 차이는 제 감지 한계의 바로 경계선에 있습니다.

저는 실제 사용자를 대상으로 한 적절한 A/B 테스트를 수행하지 않았습니다. "사용자에게 보이는 지표와의 상관관계 없음"이라는 주장은 사용자 연구 (user study)가 아닌 저의 자체적인 종합 점수 (composite score)에 기반한 것입니다. 실제 제품 팀이라면 전환을 결정하기 전에 자체적인 실험을 수행해야 합니다.

가격 수치는 30일 전의 스냅샷을 반영합니다. 모델 가격은 변하며, 매우 빠르게 변합니다. 상대적인 순위는 몇 달 동안 안정적이었지만, Global API의 가격 페이지에 있는 숫자가 제가 본 것과 동일하다고 가정하지 마십시오. 매우 유사할 것이라고 믿지만, 항상 확인하시기 바랍니다.

한 문장으로 요약한 전체 그림

만약 제가 이해관계자(stakeholder)를 위해 30일간의 전체 실험을 한 문장으로 요약해야 한다면, 다음과 같을 것입니다: 중간 규모의 랭킹 (ranking) 및 분류 (classification) 워크로드의 경우, 2026년의 비용-품질 경계선 (cost-quality frontier)은 GPT-4o 가격의 10~20% 수준이면서 대부분의 프로덕션 사용 사례에서 통계적으로 미미한 품질 차이를 보이는 모델들이 지배하고 있습니다. 예외는 절대적인 최고 성능이 필요할 때뿐입니다. 보통은 그럴 필요가 없지만, 필요할 때는 본인이 알게 될 것입니다.

Claude vs GPT-4 30일간의 테스트 — 결과는 놀라울 것입니다

요약

핵심 포인트