본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 30. 23:29

중국 LLM의 부상: 2017년부터 2026년까지의 완전한 역사

요약

중국 AI 연구소들이 Wu Dao 2.0과 DeepSeek V3를 거치며 단순 복제품에서 진정한 경쟁자로 성장해온 역사를 다룹니다. Transformer 논문 이후 BERT 시대부터 현재의 대규모 언어 모델(LLM)에 이르기까지의 기술적 진화 과정을 분석합니다.

핵심 포인트

  • 중국은 Wu Dao 2.0을 통해 1.75T 파라미터 규모의 모델을 선보이며 기술력을 입증함
  • Baidu의 ERNIE 등 초기 모델부터 지식 그래프를 통합하며 독자적 발전을 이룸
  • 미국의 GPU 수출 제한이라는 제약 속에서도 독자적인 AI 생태계를 구축함
  • 단순 복제를 넘어 MoE 아키텍처 등 고도화된 기술력을 확보함

제목: 중국 LLM의 부상: 2017년부터 2026년까지의 완전한 역사
발행일: true
설명: Wu Dao 2.0 (1.75T 파라미터)부터 DeepSeek V3 (560만 달러의 훈련 비용)까지 — 중국 AI 연구소들이 어떻게 "저가형 복제품"에서 진정한 경쟁자로 거듭났는지에 대한 전체 이야기.
태그: ai, deepseek, machinelearning, llm, china
커버 이미지:

저는 GPT-2 시절부터 AI 분야를 지켜봐 왔는데, 사람들이 지속적으로 놀라워하는 점 중 하나는 중국 AI 연구소들이 불과 몇 년 만에 얼마나 멀리 왔는가 하는 점입니다. 대부분의 서구 개발자들은 여전히 "중국 AI"라고 하면 "저가형 복제품"이라고 생각합니다. 하지만 현실은 훨씬 더 흥미롭습니다.

전체 타임라인을 살펴보겠습니다.

2017–2020: 기반 형성기
대부분의 LLM(대규모 언어 모델) 이야기가 그렇듯, 이 이야기는 2017년 Google Brain에서 발표한 Transformer 논문("Attention Is All You Need")과 함께 시작됩니다. 중국 연구자들은 시작부터 깊이 관여했습니다. 이 논문의 저자 중 여러 명은 중국 국적자였으며, 이후 중국으로 돌아가 AI 연구소를 설립했습니다.

2018: BERT 시대의 각성

2018년 말 Google이 BERT를 출시했을 때, 중국의 기술 거물들은 즉시 뛰어들었습니다:

  • Baidu는 2019년 3월 ERNIE 1.0을 출시하여 여러 중국어 NLP(자연어 처리) 벤치마크에서 Google의 BERT를 앞질렀습니다. ERNIE는 BERT에는 없었던 지식 그래프 임베딩(knowledge graph embeddings)을 통합했습니다.
  • Alibaba는 이커머스 NLP를 위한 자체 사전 학습 모델(pretrained models)을 출시했습니다.
  • Tencent는 자체적인 사전 학습 모델 제품군을 선보이며 뒤를 이었습니다.
    하지만 이 중 어느 것도 오늘날의 기준으로는 "대규모"가 아니었습니다. 파라미터(parameter) 수는 수십억 개가 아닌 수억 개 단위였습니다.

2019: GPT-2가 촉발한 경쟁

OpenAI의 GPT-2 (15억 개의 파라미터)는 스케일링(scaling)이 효과가 있다는 것을 명확히 보여주었습니다. 중국 연구소들은 더 크게 생각해야 한다는 것을 깨달았습니다. 하지만 문제가 있었습니다. 미국의 수출 제한이 강화되기 시작하면서 NVIDIA GPU를 구하기가 어려워졌습니다.

이러한 제약은 나중에 버그가 아닌 특징(feature)이 될 것이지만, 그 부분은 나중에 다루겠습니다.

2021: 모든 것이 변한 해
2021년 6월 — Beijing Academy of Artificial Intelligence (BAAI)가 Wu Dao 2.0을 출시합니다

이 순간은 전 세계 AI 커뮤니티를 충격에 빠뜨렸습니다. Wu Dao 2.0은 1.75조 개의 파라미터 (parameters)를 보유하고 있었으며, 당시 GPT-3 (175B)보다 10배나 더 컸습니다. 이는 중국산 슈퍼컴퓨터에서 학습되었으며 텍스트, 이미지 생성은 물론 시(poetry)까지 쓸 수 있었습니다.

서구 언론은 이를 대부분 무시했습니다. 관심을 가졌던 이들조차 "인상적이지만 실용적이지는 않다"며 일축했습니다. 지나고 보니, 이는 중국이 파운데이션 모델 (foundation models)에 진심이라는 것을 보여준 첫 번째 주요 신호였습니다.

Wu Dao 2.0의 주요 통계:

  • 1.75T 파라미터 (희소 MoE (sparse MoE) 아키텍처)
  • 4.9 TB의 텍스트 데이터로 학습
  • 1,000개 이상의 GPU (수출 규제가 강화되기 전에 확보한 NVIDIA A100)
  • 텍스트, 이미지 및 비디오 생성 가능

2021년 말 — Zhipu AI가 GLM-130B를 출시합니다

칭화대학교 (Tsinghua University)의 스핀오프 기업인 Zhipu AI는 1,300억(130B) 개의 파라미터를 가진 범용 언어 모델 (General Language Model, GLM)을 출시했습니다. 이는 영어와 이중 언어 성능을 명시적으로 목표로 한 최초의 중국 LLM이었다는 점에서 의미가 컸습니다.

2022년: 폭풍 전의 고요
OpenAI가 조용히 GPT-4를 학습시키고 Anthropic이 Claude를 개발하고 있는 동안, 중국의 연구소들은 점진적인 발전을 이루고 있었습니다:

  • Alibaba가 Tongyi Qianwen (Qwen) 7B 및 14B를 출시
  • Baidu가 ERNIE 3.0 Titan (260B 파라미터)을 출시
  • Huawei가 PanGu-Σ (1.085T 파라미터, MoE)를 출시
  • Tencent가 Hunyuan 모델 제품군을 오픈 소스로 공개

이 중 어느 것도 세계적인 헤드라인을 장식하지는 못했습니다. GPT-3.5와의 성능 격차는 실재했습니다. 중국 모델들은 벤치마크 점수에서 대략 6~12개월 정도 뒤처져 있었습니다.

그러던 중 2022년 11월, ChatGPT가 출시되었습니다.

2023년: 중국의 "200개 모델" 시대
ChatGPT의 출시는 중국에 충격파를 던졌습니다. 몇 주 만에 200개 이상의 중국 기업이 LLM 프로젝트를 발표했습니다. 정부는 상업적 LLM 배포를 위한 승인 절차를 신속하게 처리했습니다.

2023년의 주요 사건:

3월 — Baidu ERNIE Bot: Baidu는 중국 최초의 대중 공개용 ChatGPT 경쟁 모델인 ERNIE Bot을 출시했습니다. 출시는 순탄치 않았습니다. 데모는 사전 녹화된 것이었고 실제 제품은 명백한 품질 문제를 가지고 있었습니다. 비평가들은 이를 "당혹스럽다"고 평가했습니다. 하지만 Baidu는 빠르게 반복 개선(iteration)을 진행했습니다.

4월 — Alibaba Qwen 오픈 소스 공개
Alibaba는 허용적인 라이선스(permissive license) 하에 Qwen-7B 및 Qwen-14B 모델을 오픈 소스로 공개하며 모두를 놀라게 했습니다. 전 세계 오픈 소스 커뮤니티가 이에 주목했습니다.

8월 — 중국, 상용 LLM 승인
중국 정부는 Baidu ERNIE, Alibaba Qwen, Zhipu GLM을 포함한 8개의 LLM을 대중적인 상업적 용도로 사용할 수 있도록 승인했습니다. 이는 AI 애플리케이션 붐의 신호탄이 되었습니다.

10월 — DeepSeek의 등장
헤지펀드의 지원을 받는 AI 연구소인 DeepSeek가 첫 번째 모델인 DeepSeek 67B를 출시했습니다. 이 모델은 비교적 적은 예산(약 1,200만 달러 추정)으로 학습되었음에도 LLaMA 2 70B와 대등한 성능을 달성했습니다.

2024년: 오픈 소스 혁명
이 해는 중국 모델들이 더 이상 "뒤처져 있지 않게 된" 해였습니다.

1월 — DeepSeek V2
DeepSeek V2는 게임 체인저가 될 혁신적인 기술인 다중 헤드 잠재 어텐션 (Multi-head Latent Attention, MLA)을 적용한 전문가 혼합 (Mixture-of-Experts, MoE) 구조를 도입했습니다. 이를 통해 KV 캐시 (KV cache) 사용량을 90% 줄여 추론 (inference) 비용을 획기적으로 낮추었습니다.

총 파라미터 236B, 토큰당 활성 파라미터 21B
학습 비용: 약 1,000만 달러 (GPT-4의 추정치인 1억 달러 이상과 비교 시)
API 가격: 입력 토큰 100만 개당 $0.14

5월 — Qwen2 시리즈
Alibaba는 0.5B부터 72B까지의 Qwen2를 출시했습니다. 72B 모델은 LLaMA 3 70B와 경쟁할 만한 수준이었습니다. 모두 완전한 오픈 소스였습니다.

12월 — DeepSeek V3
이것은 폭탄 선언과 같았습니다. DeepSeek V3:

총 파라미터 671B (활성 파라미터 37B)
2,048개의 NVIDIA H800 GPU를 사용하여 278.8만 GPU 시간 동안 학습
총 학습 비용: 557.6만 달러
성능: GPT-4o 및 Claude 3.5 Sonnet과 대등함
API 가격: 입력 100만 개당 $0.40, 출력 100만 개당 $1.60

이 학습 비용을 체감할 수 있도록 비교하자면:

모델별 추정 학습 비용
GPT-4 $100M 이상
Gemini Ultra $200M 이상
Llama 3 405B ~$30M
DeepSeek V3 $5.6M

2025년: 중국 모델의 폭발적 성장

1월 — DeepSeek R1: DeepSeek가 OpenAI o1에 필적하는 오픈 추론 모델 (open reasoning model)인 R1을 출시했습니다. 비용: 입력 100만 개당 $1.10 / 출력 100만 개당 $1.50. 이는 93% 더 저렴한 수준입니다.

3월 — Qwen3 (235B): Alibaba가 128K 컨텍스트 (context)를 지원하는 235B MoE (Mixture of Experts) 모델인 Qwen3를 출시했습니다. 이 모델은 MMLU, HumanEval 및 다국어 벤치마크 (benchmarks)에서 GPT-4o와 대등한 성능을 보였습니다.

5월 — Kimi K2: Moonshot AI가 1T 파라미터 (parameter) MoE 모델인 K2를 출시했습니다. 이 모델은 몇 주 동안 Chatbot Arena 리더보드 (leaderboard) 1위를 차지했으며, 특히 긴 컨텍스트 (long-context) 작업(최대 1M 토큰)에서 강력한 성능을 보였습니다.

현재 상황 (2026년 5월)
모델 | 파라미터 (활성) | 입력 $/M | 출력 $/M | MMLU | HumanEval
GPT-4o | ~1.7T (?) | $10.00 | $30.00 | 88.7 | 90.2
Claude 3.5 Sonnet | — | $3.00 | $15.00 | 88.3 | 92.0
DeepSeek V3 | 671B (37B) | $0.40 | $1.60 | 88.5 | 90.5
Qwen3-235B | 235B (35B) | $0.50 | $2.00 | 88.0 | 89.8
Kimi K2 | 1T (32B) | $0.50 | $2.00 | 89.1 | 91.2

벤치마크 격차는 사실상 해소되었습니다. 일부 작업(수학, 코딩, 긴 컨텍스트)에서는 중국 모델이 실제로 앞서고 있습니다.

무엇이 이를 견인했는가?
서구권 개발자들이 이해해야 할 세 가지 요인:

  1. 컴퓨팅 제약이 혁신의 동력이 되다: 미국의 칩 규제로 인해 NVIDIA H100/B200에 대한 접근이 제한되자, 중국 연구소들은 마지막 남은 연산 능력 (flop) 하나까지 최적화해야 했습니다. 이들은 더 효율적인 아키텍처 (MoE, MLA), 더 나은 학습 알고리즘 (FP8 혼합 정밀도, mixed precision), 그리고 영리한 인프라 해킹 (DeepSeek의 "DualPipe" 알고리즘)을 개발했습니다.

  2. 거대한 국내 인재 풀: 중국은 매년 약 50만 명의 공학 졸업생을 배출합니다. 주요 연구소(DeepSeek, Zhipu, Moonshot)는 세계적인 수준의 컴퓨터 과학 (CS) 프로그램을 보유한 칭화대, 베이징대(PKU), 저장대 등에서 인재를 채용합니다.

  3. 정부 및 VC 자금 지원: 중국 AI 연구소들은 2021년에서 2025년 사이에 총 500억 달러 이상의 자금을 지원받았습니다. 정부는 AI를 전략적 우선순위로 지정하고 보조금, 데이터 센터 접근 권한, 그리고 신속한 규제 승인 절차를 제공했습니다.

핵심 요약 (The Takeaway)
중국 LLM (Large Language Models)은 더 이상 "단순히 따라잡는 수준"이 아닙니다. 서구권 모델들의 비용이 계속해서 상승하는 시장 상황 속에서, 중국 모델들은 비용 효율적인 대안이 되었습니다. DeepSeek V3는 GPT-4o 가격의 4% 수준으로 GPT-4o 품질의 약 88%를 구현해냅니다.

중국 AI의 이야기는 지정학적 경쟁에 관한 것이 아닙니다. 이는 뛰어난 엔지니어들이 자원 제약에 직면했을 때, 단순히 돈을 쏟아붓는 대신 혁신을 통해 문제를 해결해 나가는 과정에 관한 것입니다.

출처: DeepSeek 기술 보고서 (arxiv), BAAI 간행물, Alibaba Qwen 논문, Moonshot AI 블로그, artificial analysis, llm-stats, 공개 API 가격 페이지. 모든 데이터는 2026년 5월 기준입니다.

본 시리즈의 다음 주제: 서구권 AI 모델들은 왜 그렇게 비싼가 — 그리고 그 가격 책정이 정당한가.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0