중국 AI vs 미국 AI: 프리랜서 개발자의 솔직한 비용 항목별 비교

저는 1인 개발 숍을 운영하고 있습니다. 저의 "사무실"은 두 대의 모니터, 제 키보드 위를 걸어 다니는 고양이, 그리고 매주 금요일마다 AI API에 정확히 얼마를 지출하는지 추적하며 업데이트하는 스프레드시트가 있는 아파트의 한 구석입니다. 마지막 그 스프레드시트요? 그것이 제가 AI 산업 전체를 바라보는 방식을 바꾼 문서입니다.

6개월 전, 저는 API 호출 비용으로 돈을 쏟아붓고 있었습니다. 클라이언트의 React 컴포넌트를 리팩터링(refactor)하는 것부터, 보일러플레이트(boilerplate) CRUD 엔드포인트를 생성하는 것, 그리고 너무 지쳐서 문장을 다듬기 힘들 때 가끔 이메일을 초안 작성하는 것까지 모든 일에 GPT-4o를 사용했습니다. 저의 월간 청구 금액은 약 340달러 근처를 맴돌았습니다. 프리랜서에게 그 정도 금액은 월세입니다. 식비입니다. 제가 대신 청구할 수 있었던 일주일 치의 유료 작업 시간입니다.

그러던 중, 저희 Slack 그룹의 계약직 친구가 링크 하나를 던지며 말했습니다. "형씨, 이 가격 좀 봐봐." 저는 확인했습니다. 수치를 계산해 보았습니다. 저는 크게 욕을 내뱉었습니다. 고양이가 깜짝 놀랐을 정도였죠.

제가 무엇을 발견했는지, 무엇을 테스트했는지, 그리고 현재 실제 클라이언트 작업을 위해 실제로 무엇을 배포(deploy)하고 있는지 설명해 드리겠습니다. 만약 당신이 모든 API 호출이 자신의 주머니에서 나가는 돈이라고 생각하는 개발자라면 — 실제로 그렇기 때문입니다 — 이것이 바로 당신이 찾던 비교 분석입니다.

내가 과다 지불하고 있다는 것을 깨달은 순간

AI를 코딩 파트너로 사용하는 법을 배울 때 아무도 말해주지 않는 사실이 하나 있습니다. 기본 동작은 가장 비싼 모델을 찾는 것인데, 왜냐하면 그것이 더 "안전하게" 느껴지기 때문입니다. 저도 정확히 그렇게 해왔습니다. 까다로운 작업에는 Claude 3.5 Sonnet을, 그 외의 모든 것에는 GPT-4o를, 그리고 거대한 컨텍스트 윈도우(context window)가 필요할 때는 가끔 Gemini 1.5 Pro를 호출했습니다.

그러다 중국 모델의 가격표를 보게 되었습니다. 몇 달 전 누군가가 저에게 해주었으면 좋았을 방식으로, 제가 여러분에게 정리해 드리겠습니다:

모델	국가	입력 $/M	출력 $/M	기준 대비 비용
GPT-4o	🇺🇸	$2.50	$10.00	40배 더 비쌈
...

다시 한번 읽어보세요. DeepSeek V4 Flash는 출력 토큰 100만 개당 $0.25를 청구합니다. GPT-4o는 $10.00를 청구합니다. 이것은

저는 벤치마크 표를 신뢰하지 않습니다. 회의적이라고 불러도 좋지만, 고객에게 전달할 결과물에 제 이름을 걸어야 한다면, 모델이 존재하지 않는 함수를 환각 (hallucinate)하지 않는다는 것을 확실히 알고 싶습니다. 그래서 저는 테스트 하네스 (test harness)를 구축했습니다. 프롬프트, 온도 (temperature), 시스템 메시지 (system message)는 모두 동일하게 유지하고, 오직 모델 이름만 교체했습니다. 제가 설정한 방식은 대략 다음과 같습니다:

from openai import OpenAI
import time

...

저는 이전에 GPT-4o와 함께 사용했던 30개의 실제 프롬프트—코드 리뷰, 정규 표현식 (regex) 생성, SQL 최적화 등—를 대상으로 이를 실행했습니다. 비용을 추적하고, 실제 소요 시간 (wall-clock time)을 기록했으며, 가족을 만나러 가는 긴 비행기 안에서 출력 결과물에 직접 점수(1-5 척도)를 매겼습니다.

추론 벤치마크 (Reasoning Benchmarks): 수치 데이터

직접 수행한 조사 결과를 말씀드리기 전에, 제가 처음에 호기심을 갖게 만든 공개 벤치마크 데이터를 먼저 보여드리겠습니다. 이것은 더 넓은 커뮤니티에서 MMLU 스타일의 일반 추론 테스트를 통해 보고 있는 결과입니다:

모델	MMLU 점수	100만 출력 토큰당 가격
Claude 3.5 Sonnet	89.0	$15.00
...

저 격차를 보십시오. 추론 능력에서 Claude가 V4 Flash보다 3.5점 더 높습니다. 3.5점입니다. 가격 차이가 60배나 나는데 말이죠. 대부분의 실제 코딩 작업에서 3.5점 차이는 무시해도 될 수준의 노이즈 (noise)입니다.

코드 생성 (Code Generation): 흥미로워지는 지점

HumanEval 점수 (커뮤니티 평균 — 개인마다 차이가 있을 수 있음):

모델	HumanEval	100만 출력 토큰당 가격
Claude 3.5 Sonnet	93.0	$15.00
...

DeepSeek V4 Flash는 HumanEval에서 GPT-4o보다 단 1점 뒤처집니다. 단 '1점'입니다. 비용은 1/40 수준인데 말이죠. 이것은 저를 밤잠 설치게 만드는 종류의 계산입니다. 나쁜 의미가 아니라, "왜 이걸 아직도 안 쓰고 있지?"라는 의미에서 말입니다.

중국어 작업: 논쟁의 여지가 없는 유일한 영역

만약 당신이 중국어를 사용하는 고객을 위해 업무를 수행한다면—프리랜서로서 글로벌 시장은 곧 당신의 시장입니다—중국 모델들이 압도적입니다:

모델 (Model)	C-Eval 점수	1M 출력당 가격
GLM-5	91.0	$1.92
...

중국어 사용 사례(use case)의 경우, GPT-4o는 단순히 가격이 비싼 것뿐만 아니라—실제로 네 가지 더 저렴한 대안들보다 성능이 떨어집니다. 만약 당신이 간체(Simplified Chinese) 또는 번체(Traditional Chinese) 콘텐츠를 다루는 무엇인가를 구축하고 있다면, OpenAI를 기본값으로 선택해야 할 타당한 이유는 전혀 없습니다.

나의 직접적인 테스트 결과

30개의 프롬프트(prompt)로 진행한 가혹한 테스트(gauntlet)를 거친 후, 제가 발견한 결과는 다음과 같습니다:

DeepSeek V4 Flash: 솔직히 가장 큰 놀라움이었습니다. 제가 던져준 모든 코딩 작업을 완벽하게 수행했습니다. 두 개의 응답은 GPT-4o가 주었을 법한 결과보다 약간 덜 우아했습니다—장황한 변수 이름이나 불필요한 추가 체크 로직 같은 것들 말이죠—하지만 컴파일이 되었고, 제 테스트 케이스를 통과했으며, 가격은 40배나 더 저렴했습니다. 어차피 제가 검토할 코드를 초안 작성하는 용도라면? 비교가 되지 않습니다. 속도 또한 큰 장점이었습니다: GPT-4o의 50 tokens/second 대비 60 tokens/second를 기록했습니다.

Qwen3-32B: 이 모델은 중요도가 낮은 작업을 위한 저의 "기본 저가형 모델(default cheap model)"이 되었습니다. V4 Flash보다 약간 느리지만 출력물은 일관되게 조금 더 세련되었습니다. 1M 출력당 $0.28로 V4 Flash보다 아주 약간 더 비싸지만, 저의 특정 테스트 결과에서는 12%의 추가 비용을 지불할 만큼 품질 향상의 가치가 있었습니다. 만약 "저렴한 것이 필요해"를 위해 GPT-4o-mini가 존재한다면, "저렴하면서도 실제로 성능이 좋은 것이 필요해"를 위해 Qwen3-32B가 존재합니다.

Kimi K2.5: 이 모델은 긴 문맥 추론(long-context reasoning) 능력에서 저를 감동시켰습니다. 60K 토큰 분량의 프로젝트 사양서(spec)를 입력하고 아키텍처 리뷰를 요청했는데, 제가 놓쳤던 두 가지 문제를 실제로 잡아냈습니다. 가격은 1M 출력당 $3.00로 아주 저렴한 편은 아니지만, Claude 3.5 Sonnet보다 5배 저렴하며 추론 능력은 대등하게 느껴졌습니다. 심층 분석 작업(deep analysis work)을 위해 이제 이것을 저의 고정 선택지(go-to)로 삼고 있습니다.

GLM-5: 탄탄한 올라운더(all-rounder)입니다. 1M 출력당 $1.92는 다른 모델들만큼 눈이 번쩍 뜨이는 가격은 아니지만, 거의 모든 일을 능숙하게 처리할 수 있는 모델이라는 점을 고려하면 여전히 매우 합리적인 가격입니다. 저는 사용자 대상 카피(user-facing copy)를 생성하거나 미묘한 뉘앙스의 번역을 수행하는 등, 적절한 품질이 필요하지만 V4 Flash를 쓰기에는 확신이 서지 않는 작업에 이 모델을 사용합니다.

내가 실제로 사용하는 스택 (The Stack I Actually Run)

저의 현재 라우팅 로직(routing logic)은 다음과 같습니다. 요청이 들어오면 저는 스스로에게 질문합니다. '만약 잘못된 답변을 받는다면 최악의 비용(worst-case cost)은 얼마인가?'

사소한 작업 (정규표현식 (regex), 문법 질문, 한 줄짜리 리팩토링 (one-liner refactors)): DeepSeek V4 Flash. 출력 1M 토큰당 $0.25. 속도가 매우 빠름 (Speed demon). 품질은 95%의 경우 "충분히 괜찮음" 수준.
표준적인 코드 작업 (함수 생성, 디버깅, 코드 리뷰 (code review)): Qwen3-32B. 출력 1M 토큰당 $0.28. 품질이 약간 더 좋으며, 여전히 저렴한...