중국 AI 모델을 실용적 관점에서 정리하기 (2026년 6월)

2026년에 들어서면서 중국의 AI 연구소들이 연이어 모델을 출시하고 있습니다. DeepSeek V4, Qwen 3.7 Max, Kimi K2.6, MiniMax M3——이 글을 쓰고 있는 지금(6월 초순)도 새로운 이름들이 나오고 있습니다. "이름은 들어봤는데 무엇이 어떻게 다른가", "일본어로 사용할 수 있는가", "어떻게 접속하는가"를 정리합니다.

영어 기사에서는 잘 다뤄지지 않는 중국어 소스의 정보(훈련 인프라의 실태, 규제 메커니즘, 중국 개발자 커뮤니티의 동향)도 후반부에 추가했습니다.

주요 모델의 현황 (2026년 6월)

2026년 Q1~Q2에 출시된 주요 모델을 표로 정리합니다.

모델	개발사	출시	파라미터	라이선스	컨텍스트 길이
DeepSeek V4 Flash	DeepSeek	2026년 4월	284B/13B active	MIT	1M tokens
...
모든 모델이 MoE (Mixture of Experts) 아키텍처를 채택하고 있으며, total parameters보다 active parameters가 실제 추론 비용에 더 가까운 수치입니다.

일본어 대응 현황

일본어 대응에서 앞서 나가고 있는 것은 Qwen 계열입니다.

Qwen (Alibaba)

Qwen3 시리즈는 100개 이상의 언어 대응을 내세우고 있으며, 일본어 정밀도에 대한 독립적인 평가가 여러 건 존재합니다. 도호쿠 대학 등의 연구 팀이 추가 학습시킨 Qwen3 Swallow는 Swallow LLM Leaderboard v2에서 다음과 같은 점수를 기록했습니다.

8B 클래스: 일본어 태스크 평균 0.557 (8B 이하 오픈 LLM 중 최고)
32B 클래스: 일본어 태스크 평균 0.609 (32B 이하 오픈 LLM 중 최고)

추가 학습을 하지 않은 Qwen 3.7 Max에서도, 중국 모델 중에서는 일본어 출력이 정연하다는 보고가 많습니다.

베이스 모델 자체의 일본어 학습 데이터량은 공개되지 않았습니다. Qwen3의 기술 리포트에 따르면 학습 데이터는 36조 토큰, 119개 언어라고 하지만, 언어별 비율은 비공개입니다.

DeepSeek

공식적인 일본어 벤치마크는 없습니다. CyberAgent가 "DeepSeek-R1-Distill-Qwen-32B-Japanese"를 공개하여, 추가 학습으로 일본어 품질을 끌어올린 버전을 사용할 수 있습니다. 코딩 용도라면 언어 정밀도의 차이가 잘 나타나지 않으므로, 순수 DeepSeek V4 Flash로도 실용적입니다.

Kimi / MiniMax / GLM

Kimi K2.6은 코딩·에이전트 계열 태스크에 특화된 설계로, 일본어 공식 벤치마크는 찾아볼 수 없습니다. MiniMax M3는 이전 버전(M2.5)에서 일본어의 자연스러운 출력 실적이 있습니다. GLM-5.1은 디버깅·에러 분석 태스크에서 중국 개발자 커뮤니티로부터 평가를 받고 있습니다 (후술).

일본에서의 접속 방법

OpenRouter가 현실적

OpenRouter를 사용하면 DeepSeek, Qwen, Kimi, MiniMax, GLM을 하나의 API 키로 사용할 수 있습니다. 일본 신용카드로 결제할 수 있고, OpenAI SDK와 호환되므로 이행 비용도 낮습니다.

from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
...

모델 ID는 변경될 수 있으므로, 실제로 사용하기 전에 OpenRouter의 모델 목록에서 확인하십시오.

각 사 직접 API

직접 API를 사용하는 경우 결제가 과제가 됩니다.

DeepSeek: api.deepseek.com은 중국계 결제가 중심입니다. AiCredits 등의 리셀러를 통해 Visa를 사용할 수 있습니다.
Qwen: Alibaba Cloud DashScope (국제 계정 대응, 국제 신용카드 가능)
Kimi: api.moonshot.ai 국제용 엔드포인트, 국제 신용카드 가능
MiniMax: platform.minimax.io 국제 계정 (심사 2~3일)
Doubao (ByteDance): Volcano Engine을 통해 이용, 일본에서의 이용은 절차가 번거로움
ERNIE (Baidu): 중국 계정이 실질적으로 필요

요금의 현실

GPT-4o, Claude Sonnet과의 비교입니다 (2026년 6월 시점).

모델	Input ($/1M 토큰)	Output ($/1M 토큰)
Step 3.5 Flash	$0.10	$0.30
...	GPT-4o	$2.50
Claude Sonnet 4.6	$3.00	$15.00

DeepSeek V4 Flash는 캐시 히트(Cache Hit) 시 $0.0028/1M라는 가격 책정을 보여주며, 배치 처리(Batch Processing)나 반복적인 프롬프트가 많은 유스케이스(Use case)에서는 차원이 다른 비용 차이를 만들어냅니다.

국내용 및 국제용 요금에 대하여: DeepSeek는 CNY(위안화) 결제와 USD(달러) 결제에 대해 별도의 API 문서 페이지를 운영하고 있으며, 가격 설정이 명시적으로 구분되어 있습니다. 현재 환율(1USD ≈ 7.2CNY)로 환산하면 두 금액은 거의 동일합니다. 이는 국내 사용자에게 의도적인 보조금을 지급하는 것이 아니라, 결제 인프라의 차이에 따른 구분으로 보입니다. 참고로 중국 국내 디지털 서비스에는 증치세(VAT 6%)가 적용됩니다.

훈련 인프라의 실태

영어 기사에서는 "중국 모델은 저렴하다"라는 결론이 앞서 나오지만, 어떤 하드웨어로 훈련되고 있는지는 일반적으로 잘 보도되지 않습니다.

DeepSeek V3의 훈련 비용

DeepSeek V3의 기술 보고서에는 훈련 인프라의 상세 내용이 기재되어 있습니다.

GPU 클러스터: Nvidia H800 × 2,048장
노드 내 연결: NVLink-4 (200 GB/s 초과)
노드 간 연결: InfiniBand
1조 토큰 훈련에 소요된 시간: H800 × 180,000 GPU 시간 (전체 클러스터 사용 시 약 3.7일)
전체 훈련 공정 합계: 278만 8천 GPU 시간, $2/GPU 시간 환산 시 약 557만 달러

GPT-4의 훈련 비용이 1억 달러 이상으로 알려진 것과 비교하면 차원이 다른 저렴함이며, 이 수치가 업계에 충격을 준 이유 중 하나입니다.

GLM-5: Nvidia 칩을 사용하지 않고 훈련한 첫 번째 프론티어 모델

Z.AI(구 Zhipu AI)가 2026년 2월에 출시한 GLM-5는 훈련에 Nvidia 칩을 전혀 사용하지 않은 최초의 성능 경쟁력을 갖춘 모델입니다.

GPU: Huawei Ascend 910B × 10만 장
프레임워크: MindSpore (Huawei 제작 오픈 소스)
학습 데이터량: 28.5조 토큰
SWE-bench Verified: 77.8% (GPT-5.2의 80.0%와 유사한 수준)

Zhipu는 2025년 1월에 미국 엔티티 리스트(Entity List)에 추가되어 H100/H200/B200에 대한 정상적인 접근이 차단된 상태입니다. Ascend 910B로 대규모 훈련을 성사시킨 것은 미국의 수출 규제에 대한 중국 측의 답변으로서 주목받고 있습니다.

다만 Ascend 910B의 성능은 H100과 비교했을 때 열세인 부분이 있습니다.

Ascend 910B	Ascend 910C	Nvidia H100
FP16 연산	약 320 TFLOPS	약 800 TFLOPS
...

Ascend 910C는 128 GB HBM3를 탑재하여 H100의 80 GB를 상회하지만, 훈련의 안정성이나 에코시스템(Ecosystem)의 성숙도 면에서는 차이가 있습니다.

DeepSeek R2와 Ascend의 실패

Tom's Hardware의 보도에 따르면, 중국 당국으로부터 Nvidia 하드웨어에서 전환할 것을 요구받은 DeepSeek는 R2의 훈련을 Ascend로 시도했으나 반복적으로 실패했습니다.

대규모 훈련 런(Run)에서의 불안정한 동작
NVLink와 비교했을 때 칩 간 통신 대역폭 부족
Huawei의 CANN 소프트웨어 제한

Huawei 측에서도 엔지니어 팀을 파견했으나 해결에 이르지 못했고, R2의 훈련은 결국 Nvidia로 복귀했습니다. 현재의 DeepSeek는 Ascend GPU를 훈련이 아닌 추론(Inference) 전용으로 사용하는 역할 분담을 취하고 있습니다.

기술적 특징

MLA (Multi-Head Latent Attention)

DeepSeek V2에서 도입된 MLA(다두 잠재 주의)는 KV 캐시를 압축 및 전개하는 아키텍처입니다. 일반적인 Multi-Head Attention이 전체 차원의 K·V 매트릭스를 캐시하는 것과 달리, MLA는 저차원의 잠재 벡터(Latent Vector)로 압축하여 캐시하고 추론 시 필요에 따라 전개합니다.

이점은 KV 캐시의 메모리 풋프린트 (Memory Footprint)를 줄이는 것으로, 긴 문맥에서의 자기회귀 생성 (Autoregressive Decoding)이 메모리 대역폭 병목 현상이 되지 않도록 합니다. 이 아키텍처는 Kimi K2와 GLM-5에도 채택되었습니다.

MiniMax의 Lightning Attention

MiniMax-01 (2025년 1월)이 대규모 모델로서 처음으로 도입한 Lightning Attention은 표준 소프트맥스 어텐션 (Softmax Attention, 계산량 O(n²))을 선형 근사를 통해 O(n)에 가까운 계산량으로 실현합니다.

MiniMax-01에서 확립한 '7개 블록의 Lightning Attention에 대해 1개 블록의 일반 Attention'이라는 하이브리드 구성을 계승하여, MiniMax-M3에서도 동일한 비율을 채택하고 있습니다. 순수한 선형 어텐션이 아니라, 중요한 위치에서는 일반적인 어텐션을 유지함으로써 품질을 보장합니다.

100K 토큰의 출력 생성에 있어, DeepSeek-R1의 약 25% 계산량으로 처리할 수 있다고 공식적으로 밝히고 있습니다.

DeepSeek R1의 디스틸레이션 (Distillation)이 잘 작동하는 이유

DeepSeek R1에서 증류(Distillation)한 소형 모델 (1.5B~70B)은 Qwen2.5 및 Llama3 기반의 아키텍처에 R1이 생성한 80만 개의 샘플로 SFT (Supervised Fine-Tuning)를 수행한 것입니다.

핵심은 증류 원천인 R1이 강화학습 (RL, GRPO)으로 훈련된 추론 특화 모델이기 때문에, 전이되는 체인 오브 소트 (Chain of Thought)가 최종 정답뿐만 아니라 긴 추론 트레이스 (Reasoning Trace)를 포함한다는 점입니다. 이를 통해 소형 모델이 추론 패턴 자체를 학습하게 됩니다.

동일한 수법으로 Berkeley의 Sky Computing Lab이 $450, 19시간 만에 OpenAI의 추론 모델을 재현하였고, 스탠퍼드 및 UW의 연구자들은 26분, $50 미만으로 재현해냈습니다.

중국의 규제와 상용 전개

중국 국내에서 AI API를 서비스로 제공하려면 정부에 신고가 필요합니다. 일본에서 사용하는 것과는 관계가 없지만, '왜 중국 모델에 일정 수준의 콘텐츠 제한이 있는가'에 대한 배경으로 알고 있으면 상황을 이해하는 데 도움이 됩니다.

신고 체계 (비안(备案)과 등기(登记))

2023년 7월 시행된 '생성식 인공지능 서비스 관리 잠정 조치'에 따라, 중국 국내에서 서비스를 제공하는 모든 생성형 AI는 신고가 필요합니다.

두 가지 경로가 있습니다.

비안 (备案, Bei'an): 자체 개발 모델 또는 대폭적인 개조를 가한 모델 대상. 성(省)급 CAC와 중앙 CAC의 2단계 심사. 소요 시간 2~5개월 이상. 심사에서는 약 1,000문항의 생성 테스트 (90% 이상의 정답률 요구)와 더불어, 약 300문항의 거부 테스트 (부적절한 프롬프트에 대한 거부율 95% 이상), 약 300문항의 응답 테스트 (정당한 질문에 대한 답변 거부율 5% 이하 — 과도한 규제도 금지)가 진행됩니다.

등기 (登记, Dengji): 기존 승인된 모델의 API를 그대로 사용하는 서비스 대상. 성급 수준의 단일 심사. 소요 시간 2~3개월.

2025년 말 시점에서 748개의 서비스가 신고를 완료했습니다 (이 중 2025년 내에 446건이 신규 신고). DeepSeek와 Baidu ERNIE Bot은 신고가 완료된 것이 확인되었습니다. Qwen, Kimi, MiniMax, GLM도 상용 전개 중이므로 신고를 마친 것으로 보이나, 공식 리스트에 개별 모델명이 기재되어 있다고 단정할 수는 없습니다.

콘텐츠 제한의 실태

신고 심사에서는 다음 5가지 카테고리의 콘텐츠 규제 대응 여부를 확인합니다.

사회주의 핵심 가치관 준수
차별적 콘텐츠 배제 (민족, 성별, 지역, 건강 상태 등)
지적 재산권 존중
개인의 권리 보호
업종별 안전 요건

이는 중국 국내용 API 엔드포인트에 적용됩니다. 국제용 엔드포인트 (api.deepseek.com 의 USD 결제, Kimi의 api.moonshot.ai 등)와는 동작이 다를 수 있습니다.

로컬 실행은 적용 대상 제외

오픈 웨이트 (Open Weight) 모델을 자사 서버나 개인 머신에서 구동하는 경우는 이 규제의 대상이 아닙니다. DeepSeek-R1을 로컬에서 구동하는 것에 대한 규제상의 제약은 없습니다. 또한, 이는 VPN 등을 통해 중국에서 해외 AI 도구에 접속하는 것에 대한 규제와는 별개의 문제입니다.

중국 개발자 커뮤니티에서의 사용 방식

중국어 기술 블로그와 포럼을 통해 보이는 실제 사용 패턴입니다.

용도별 구분 사용

중국 개발자 커뮤니티 (Zhihu, CSDN, 기술 블로그)에서는 용도에 따라 모델을 구분하여 사용하는 모습을 볼 수 있습니다.

백엔드 및 복잡한 로직 (Backend / Complex Logic): DeepSeek V4 Pro. API 스키마 설계, DB 스키마, 서비스 아키텍처 (Service Architecture) 설계에 사용된다는 언급이 많습니다. -
프론트엔드 UI (React / Vue): Kimi K2.6. SWE-Bench Pro에서 58.6%를 기록하며 평가가 높아졌습니다. -
디버깅 및 에러 분석 (Debugging / Error Analysis): GLM-5.1. 에러 메시지의 근본 원인(Root Cause)을 식별하는 데 적합하다는 평가가 중국 개발자들 사이에서 나오고 있습니다. -
비용 효율적인 STEM 및 수학 (Cost-effective STEM / Math): Step 3.5 Flash ($0.10/1M). AIME 97.3으로 이번에 조사한 모델 중 가장 높은 수치를 기록했으며, 가격과의 조합이 높게 평가됩니다.

「极」 버그: 데이터 오염 의혹

2026년 초 중국 개발자들 사이에서 화제가 된 사례입니다. DeepSeek V3.1이 생성하는 텍스트에 갑자기 「极」(‘극단적’, ‘최상’을 의미하는 한자)라는 글자가 섞여 나오는 버그가 보고되었습니다. 물리 시험 문제 정리, 코드 생성, 번역 등 여러 태스크(Task)에서 재현되었다는 보고가 Zhihu에 다수 올라왔습니다.

커뮤니티의 유력한 가설은 훈련 데이터에 워터마크 (Watermark)가 혼입되었다는 것입니다. 「极」의 토큰 ID (2577)가 생략 기호 토큰 (2576)과 인접해 있어, 토크나이저 (Tokenizer) 레벨의 혼란이 원인이라는 기술적 관찰도 있었습니다. V3의 이전 버전(V3-0324)에서도 유사한 현상이 있었다는 보고가 있어, 단발성 버그가 아닌 훈련 데이터의 품질 문제일 가능성이 지적되고 있습니다.

할루시네이션 (Hallucination)

NewsGuard의 2025년 1월 테스트에 따르면, DeepSeek는 뉴스 관련 프롬프트(Prompt)에 대해 83%의 오답률을 보였으며, 30%는 이미 알려진 잘못된 정보를 반복했다고 보고되었습니다. DeepSeek-R1의 할루시네이션 비율은 14.3%로, V3(낮은 편)보다 높은 수치가 나왔습니다.

중국어에서 타 언어로 번역하는 태스크에서 영어 단어가 갑자기 섞여 나오는 현상도 여러 차례 보고되었습니다.

용도별 선택 방법

코딩 (영어 코드베이스)

DeepSeek V4 Pro 또는 Kimi K2.6이 현재의 선택지입니다. DeepSeek V4 Pro의 SWE-bench Verified 80.6%, Kimi K2.6의 SWE-bench Pro 58.6%는 둘 다 GPT-4o를 상회하는 수준입니다. 비용을 낮추고 싶다면 DeepSeek V4 Flash부터 시도해 볼 가치가 있습니다.

일본어 텍스트 처리

Qwen 3.7 Max가 일본어 정확도 면에서 실적이 있습니다. 비용이 걱정된다면 Qwen 3.6 Plus ($0.28/1M)가 중간 단계의 선택지입니다. 오픈 웨이트 (Open weights)로 직접 배포(Deploy)하고 싶다면 Qwen 3.5 397B (Apache 2.0)를 사용할 수 있습니다.

비용 최우선

Step 3.5 Flash ($0.10/1M) 또는 DeepSeek V4 Flash ($0.14/1M)를 사용하면, 태스크에 따라 GPT-4o 대비 20~30배 저렴해집니다. 둘 다 오픈 웨이트 (Apache 2.0 / MIT)이므로 로컬 실행도 가능합니다.

할루시네이션 허용도가 낮은 태스크

어떤 중국 모델이든 독립적인 신뢰성 평가는 제한적입니다. 중요한 정보 확인, 법률, 의료 분야에서의 이용은 GPT-4o / Claude와 실제로 비교해 본 후 결정할 것을 권장합니다.

OpenRouter 상의 모델 ID 참고

deepseek/deepseek-v4-pro
deepseek/deepseek-v4-flash
qwen/qwen3-7-max
...

실제 ID는 OpenRouter의 모델 목록 페이지에서 확인하십시오 (변경될 수 있습니다).

가격과 성능 양면을 고려할 때, 2026년 Q1~Q2의 중국 모델은 '시도해 볼 가치가 있는' 단계에서 '코딩이라면 실무 투입이 가능한' 수준에 도달하고 있습니다. 반면 일본어 정확도에 대한 독립적 평가, 할루시네이션 경향, 중국 내 규제로 인한 동작 차이는 실제로 확인해 볼 수밖에 없는 부분이 남아 있습니다. 우선 OpenRouter를 통해 DeepSeek V4 Flash와 Qwen 3.7 Max를 자신의 유스케이스 (Use case)에 맞춰 테스트해 보는 것이 가장 빠른 판단 근거가 될 것입니다.