중국 AI 모델이 95% 더 저렴한 이유 — 경제학적 분석 - Insights | Molayo

DeepSeek가 100만 입력 토큰당 0.27달러로 V3를 출시했을 때, 개발자 세계는 집단적으로 깜짝 놀랐습니다. 당시 GPT-4o는 100만 입력 토큰당 2.50달러를 청구하고 있었으며, 이는 대략 9배 더 비싼 가격이었습니다. 오늘날 그 격차는 더욱 벌어졌습니다. 중국의 프런티어 모델(frontier models)들은 통상적으로 100만 토큰당 0.10~~0.50달러 수준에서 운영되는 반면, 서구권의 대응 모델들은 2.00~~15.00달러 사이를 맴돌고 있습니다.

이것은 일시적인 할인 전략이 아닙니다. 시장 점유율을 확보하기 위한 미끼 상품(loss-leader) 가격 책정도 아닙니다. 90~95%의 가격 격차는 스택(stack)의 모든 계층에 걸쳐 중국 AI 생태계에 내재된 구조적 비용 우위를 반영합니다. 그 이유가 정확히 무엇인지 설명해 드리겠습니다.

숫자는 거짓말을 하지 않습니다

2026년 중반 기준 가격을 바탕으로 우리가 실제로 보고 있는 수치는 다음과 같습니다:

모델	입력/100만 토큰	출력/100만 토큰	제공업체
GPT-4o	$2.50	$10.00	OpenAI
...

DeepSeek V4는 MMLU-Pro에서 GPT-4o의 3% 이내 성능을 기록합니다. GLM-4.7은 MATH 벤치마크에서 Claude Sonnet을 능가합니다. 그런데 당신은 그 가격의 10분의 1에서 50분의 1 사이를 지불하고 있습니다.

질문은 중국 연구소들이 손해를 보며 판매하고 있느냐가 아닙니다. 그들은 많은 경우 수익을 내고 있습니다. 그 이유는 다음과 같습니다.

이유 1: 전문가 혼합(Mixture-of-Experts)이 단위 경제성을 변화시킵니다

이것이 가장 큰 요인이지만, 대부분의 사람들은 이를 간과합니다. 대다수의 중국 프런티어 모델들은 밀집형 트랜스포머(dense transformers) 대신 전문가 혼합 (Mixture-of-Experts, MoE) 아키텍처를 사용합니다.

GPT-4o와 같은 밀집형 모델(dense model)은 모든 토큰에 대해 모든 파라미터(parameter)를 활성화합니다. 만약 모델이 1.7조 개의 파라미터를 가지고 있다면, 모든 순전파(forward pass) 시 1.7조 개가 모두 작동합니다. 이는 추론(inference) 비용이 총 파라미터 수에 따라 선형적으로 증가함을 의미합니다.

MoE는 이를 뒤집습니다. DeepSeek V3는 총 671B(6,710억 개)의 파라미터를 가지고 있지만, 토큰당 활성화되는 파라미터는 37B(370억 개)에 불과합니다. 이는 전체 모델의 5.5% 수준입니다. V4는 이를 더욱 밀어붙여, 더 세밀한 전문가 라우팅(expert routing)을 통해 V3와 거의 동일한 활성화 파라미터 예산으로 1T(1조 개) 이상의 총 파라미터를 구현했습니다.

수식은 간단합니다. 토큰당 추론 비용 (Inference cost)은 임계 경로 (critical path)에서의 부동 소수점 연산 (floating-point operations, FLOPs) 수에 의해 결정됩니다. 밀집 모델 (dense models)의 경우, 모든 파라미터가 연산에 참여합니다. 반면 MoE (Mixture-of-Experts)의 경우, 극히 일부만이 참여합니다. 이를 통해 훨씬 더 작은 모델의 추론 비용으로 거대 모델의 품질을 얻을 수 있습니다.

# 생성된 토큰당 대략적인 FLOPs 비교
# 밀집 모델 (GPT-4o급, 약 1.7T 파라미터)
dense_flops_per_token = 1_700_000_000_000 * 2  # ~3.4T FLOPs
...

물론 실제 시장 가격이 FLOPs를 완벽하게 따르는 것은 아닙니다. 메모리 대역폭 (memory bandwidth), 배치 효율성 (batching efficiency), 그리고 마진 (margin) 등이 존재하기 때문입니다. 하지만 아키텍처 측면에서 확보한 여유 공간 (headroom)은 엄청납니다. 중국 연구소들은 모델 용량 (model capacity)과 추론 비용을 효과적으로 분리했으며, 이것만으로도 가격 차이의 약 60%를 설명할 수 있습니다.

이유 2: 훈련 효율성은 더 이상 비용 문제가 아니다

프런티어 모델 (frontier models)을 훈련한다는 것은 과거에 "1억 달러 이상을 쓰지 못하면 끝"이라는 의미였습니다. 중국 연구소들은 모든 비용 항목을 체계적으로 공략해 왔습니다.

무차별 대입(brute force) 대신 데이터 큐레이션 (Data curation). 서구권 연구소들은 "인터넷 전체"를 대상으로 훈련한 뒤 나중에 필터링했습니다. 반면 중국 팀들, 특히 DeepSeek는 훈련 전에 데이터를 필터링하고 중복을 제거하는 정교한 데이터 파이프라인을 개발했습니다. DeepSeek V3는 14.8T개의 큐레이션된 토큰으로 훈련되었는데, 이는 Meta가 Llama 4에 사용한 40T+ 이상의 토큰보다 훨씬 적은 양입니다. 더 나은 데이터는 더 적은 토큰을 필요로 함을 의미하며, 이는 곧 더 적은 GPU 시간 (GPU-hours)을 의미합니다.

FP8 혼합 정밀도 훈련 (FP8 mixed-precision training). DeepSeek는 전체 과정에서 FP8을 사용하여 프런티어 모델을 성공적으로 훈련한 선구자 중 하나였습니다. 대부분의 서구권 연구소들은 아주 최근까지도 BF16/FP16을 사용해 왔습니다. 정밀도를 절반으로 줄이면 메모리 요구 사항이 절반으로 줄어들고, 훈련 처리량 (training throughput)은 대략 두 배로 증가합니다.

다중 토큰 예측 (Multi-token prediction). DeepSeek V3의 훈련 목표는 단순히 "다음 토큰을 예측하는 것"이 아닙니다. 보조 예측 헤드 (auxiliary prediction heads)를 사용하여 다음 2~4개의 토큰을 동시에 예측합니다. 이를 통해 샘플당 더 강력한 훈련 신호 (training signal)를 얻을 수 있으며, 사전 훈련 (pre-training) 과정에서의 토큰 비효율성을 줄여줍니다.

보조 손실 없는 부하 분산 (Auxiliary-loss-free load balancing). 전통적인 MoE (Mixture-of-Experts) 훈련은 전문가(experts) 간의 균형을 유지하기 위해 보조 손실 (auxiliary loss) 항을 추가하는데, 이는 모델의 품질을 약간 저하시킵니다. DeepSeek는 품질 저하 없이 전문가 균형을 유지하는 편향 기반 라우팅 메커니즘 (bias-based routing mechanism)을 개발했습니다. 이를 통해 낭비되는 훈련 연산 (training compute)을 줄였습니다.

이 중 어느 것도 생소한 기술은 아닙니다. 이들은 3~5배의 훈련 비용 절감으로 이어지는 영리한 엔지니어링 선택들입니다.

이유 3: 하드웨어 이야기는 생각보다 더 미묘합니다

표준적인 서사는 "중국 연구소들은 더 약한 하드웨어로 훈련하므로, 더 많은 비용을 써야만 한다"는 것입니다. 하지만 2026년의 현실은 그 반대에 가깝습니다.

NVIDIA가 중국에 수출하는 규정 준수 칩인 H20 GPU는 H100의 원시 FLOPS(부동 소수점 연산 능력)의 약 80% 수준이지만, 메모리 대역폭 (memory bandwidth)은 동일합니다 (HBM3를 통해 4 TB/s).
연산 능력이 아닌 메모리 대역폭이 지배적인 추론 (inference) 단계에서, H20은 기본적으로 H100을 2/3의 도입 비용으로 사용하는 것과 같습니다.

중국 클라우드 제공업체는 H20 시간당 0.80~~1.20달러를 청구합니다. AWS는 H100 시간당 3~~5달러를 청구합니다. 동일한 메모리 대역폭, 동일한 추론 처리량(throughput)을 가지면서 비용은 절반에서 1/3 수준입니다. 이는 API 가격에 직접적으로 반영됩니다.

훈련 측면에서 중국 기업들은 상호 연결 (interconnect) 기술을 창의적으로 활용해 왔습니다. DeepSeek는 NVIDIA에 대한 세금(NVIDIA tax)을 지불하지 않고도, 전체 NVIDIA 스택에서 얻을 수 있는 확장 효율성 (scaling efficiency)의 90% 이상을 달성하는 커스텀 NVLink 스타일의 상호 연결을 사용합니다.

이유 4: 인건비가 진정한 해자 (Moat)를 형성합니다

이것은 불편하지만 사실입니다. 샌프란시스코의 시니어 ML 연구 과학자 (senior ML research scientist)의 총 비용은 40만~~70만 달러에 달합니다. 베이징이나 항저우의 대응 인력은 10만~~25만 달러 수준입니다. 인재 풀은 유사합니다. 많은 이들이 동일한 최상위 컴퓨터 과학 (CS) 프로그램에서 공부했습니다. 하지만 현지 시장은 FAANG의 보상 경쟁으로 인해 가격이 치솟지 않았습니다.

DeepSeek는 약 150명의 연구원으로 운영됩니다. 이에 필적하는 서구권 연구소들은 300~500명을 운영합니다. DeepSeek가 우수한 인재를 공격적으로 채용하고 효율적으로 운영하기 때문에 결과물의 품질은 비슷합니다. 연구원이 더 많다고 해서 특정 지점 이상으로 모델 품질이 선형적으로 향상되지는 않습니다.

이유 5: 정부 보조금이 제공하는 순풍 (Tailwind)

중국 정부는 2017년부터 AI를 전략적 우선 산업으로 지정했습니다. 이것이 실제 현장에서 의미하는 바는 다음과 같습니다:

AI 기업을 위한 세금 감면 (Tax holidays): 첫 3~5년의 수익 창출 기간 동안 법인세 0%
데이터 센터를 위한 보조금 전기료 (대부분의 미국 지역이 $0.08–$0.12/kWh인 것에 비해 $0.04–$0.06/kWh 수준)
시장 가격보다 낮은 요율로 이용 가능한 정부 지원 컴퓨팅 클러스터 (Compute clusters)
시(Municipal) 단위의 인센티브: 무료 사무 공간, 채용 보조금, R&D 보조금

이러한 요소들이 개별적으로는 혁신적이지 않을 수 있지만, 집합적으로는 운영 비용을 20~~30% 절감합니다. 효율적인 아키텍처(Architecture)를 통해 이미 슬림한 운영을 하고 있는 상황에서, 이 20~~30%의 절감액은 곧바로 가격 경쟁력으로 직결됩니다.

이것이 개발자들에게 의미하는 바

결론은 명확합니다. 중국 AI API는 단순히 저렴한 선택지가 아닙니다. 특정 유스케이스 (Use cases)에서는 종종 더 나은 성능을 보이면서도, 비용은 90% 이상 저렴한 경우가 많습니다.

import openai

# 예시: 동일한 API 형식을 가진 제공업체 간 전환
...

GPT-4o에서 2,000달러가 들 비용인 100만 건의 API 호출을 DeepSeek V4에서는 85달러에 실행할 수 있습니다. 이는 "약간 더 저렴한" 수준이 아닙니다. 두 자릿수(Two orders of magnitude) 차이입니다.

실제로 주의해야 할 주의사항 (Caveats)

가격 우위는 실재하지만, 맹목적으로 전환하지는 마십시오. 다음 사항들이 중요합니다:

피크 시간대의 지연 시간 (Latency). 중국 API는 아시아 업무 시간(UTC+8 오전 시간대) 동안 응답 시간이 2~5초까지 늘어날 수 있습니다. 서구권 제공업체들은 전 세계적으로 더 일관된 성능을 유지합니다.

콘텐츠 필터링 (Content filtering). 중국 모델에는 내장된 안전 필터가 있습니다. 대부분의 기술적 콘텐츠에 대해서는 문제가 되지 않습니다. 하지만 정치적으로 민감한 주제의 경우 응답이 잘릴 수 있습니다. 귀하의 유스케이스를 테스트해 보십시오.

데이터 거주성 (Data residency). 귀하의 프롬프트(Prompts)는 중국 데이터 센터에서 처리됩니다. 의료, 금융 또는 국방 분야에 종사하고 있다면 컴플라이언스 (Compliance) 요구 사항을 확인하십시오.

무료 티어의 속도 제한 (Rate limits). 자체 호스팅 가능한 오픈 웨이트 (Open-weight) 모델 (DeepSeek, Qwen)은 관대한 무료 티어를 제공합니다. 하지만 관리형 API 서비스는 유료 플랜을 사용하지 않는 한 공격적으로 속도를 제한 (Throttle)합니다.

이 중 어느 것도 결정적인 결격 사유는 아닙니다. 단지 본격적으로 도입하기 전에 알아두어야 할 사항들일 뿐입니다.

Anthropic에 대해 구체적으로 이야기해 봅시다

Claude Opus 4는 100만 토큰당 $15.00/$75.00를 부과합니다. 동일한 작업, 예를 들어 500토큰의 응답이 필요한 2,000줄짜리 PR(Pull Request)에 대한 코드 리뷰를 수행한다고 가정하면, Claude Opus 4에서는 약 $0.05를 지불해야 하는 반면 DeepSeek V4에서는 $0.0015를 지불하면 됩니다. 대부분의 벤치마크에서 출력 품질 차이가 5% 이내임에도 불구하고 33배의 차이가 발생하는 것입니다.

Anthropic은 이를 안전 연구 (Safety Research) 및 헌법적 AI (Constitutional AI)를 통해 정당화합니다. 이것이 33배의 가치가 있는지는 여러분의 판단입니다. 하지만 가격 차이 (Pricing delta)는 결코 미미하지 않습니다.

결론

중국 AI 모델들이 저렴한 이유는 성능이 떨어지기 때문이 아닙니다. 아키텍처 (Architecture), 하드웨어 (Hardware), 노동력 (Labor), 에너지 (Energy)를 포함한 전체 비용 구조가 근본적으로 더 낮은 기준점에서 작동하기 때문입니다. 서구권 연구소들은 고객당 더 많은 수익을 올리지만 단위 경제성 (Unit economics)은 가혹합니다. 중국 연구소들은 그 반대의 프로필을 가집니다. 마진 (Margin)은 낮지만 분모가 매우 작기 때문에 단위 산식이 성립합니다.

95%의 할인율은 가격 전략이 아닙니다. 그것은 구조적인 것입니다. 그리고 이는 사라지지 않을 것입니다.

여러 개의 API 키를 관리하지 않고 이 모델들을 사용해보고 싶다면, AIWave가 50개 이상의 중국 및 글로벌 모델에 접근할 수 있는 단일 OpenAI 호환 엔드포인트 (Endpoint)를 제공합니다. 하나의 API 키, 하나의 코드베이스, 마이그레이션 (Migration)의 고통 제로.

중국 AI 모델이 95% 더 저렴한 이유 — 경제학적 분석

요약

핵심 포인트