Huawei Ascend 950에서 구동되는 DeepSeek V4: 중국 AI 칩 생태계의 진정한 스트레스 테스트
요약
DeepSeek V4 모델이 Huawei의 Ascend 950PR 칩에서 추론 성능을 검증하며 중국 AI 하드웨어 생태계의 실질적인 가능성을 입증했습니다. DeepSeek 팀은 대규모 엔지니어링 노력을 통해 CUDA 연산자를 재작성하고 최적화를 진행하여, NVIDIA의 중국 특화 모델인 H20 대비 우수한 추론 성능을 확보했습니다.
핵심 포인트
- DeepSeek V4는 Huawei Ascend 950PR에서 추론이 검증된 최초의 최상위 모델임
- Huawei CANN Next 프레임워크를 위해 200개 이상의 핵심 연산자를 재작성하고 10만 개 이상의 테스트 케이스 수행
- Ascend 950PR은 NVIDIA H20 대비 연산 속도 2.87배, MoE 추론 속도 최대 1.96배 빠른 성능을 기록
- Huawei는 Prefill(연산 중심)과 Decode(대역폭 중심) 단계에 최적화된 이중 아키텍처(950PR, 950DT) 전략을 채택
2026년 4월, DeepSeek는 1.6조 개의 파라미터를 가진 MoE (Mixture-of-Experts) 모델인 V4를 출시했습니다. 그리고 처음으로 기술 보고서의 검증된 하드웨어 목록에 NVIDIA와 함께 Huawei의 Ascend NPU를 등재했습니다. 이것은 실제 공급망에 무엇을 의미하는지, 남아있는 병목 현상은 무엇인지, 그리고 이것이 어디로 향하고 있는지에 대한 이야기입니다.
모든 것을 바꾼 검증
DeepSeek가 2026년 4월 24일에 V4를 출시했을 때, 대부분의 관심은 모델의 벤치마크 점수가 GPT-5 및 Claude Opus와 대등하다는 점에 쏠렸습니다. 하지만 더 조용하면서도 아마도 더 중대한 사건이 세부 사항 속에 숨겨져 있었습니다. DeepSeek V4는 Huawei의 Ascend 950PR 칩에서 추론 (Inference)을 완전히 검증한 최초의 최상위 모델이라는 점입니다.
이것은 단순히 "컴파일이 된다" 수준의 체크박스식 검증이 아니었습니다. DeepSeek 팀은 다음과 같은 작업을 수행했습니다:
- Huawei의 CANN Next 프레임워크를 위해 200개 이상의 핵심 CUDA 연산자 (Operators)를 재작성
- 정밀도 정렬 (Precision alignment)을 위해 100,000개 이상의 테스트 케이스 실행
- 약 30인년 (Person-years)의 엔지니어링 노력 투자
- 포팅 (Porting)을 완료하기 위해 제품 출시를 2개월 이상 연기
- 초기 포팅은 목표 성능의 1/35 수준이었으나, 이를 동등한 수준까지 최적화
950PR의 결과는 실질적입니다:
NVIDIA H20 FP4 연산 대비 지표 개선:
- 연산 속도: 2.87배 빠름 (1.56 PFLOPS vs ~0.5)
- MoE 추론 속도: 1.5~1.73배 (일반적), RL (강화학습) 롤아웃 시 최대 1.96배
- 멀티모달 (Multi-modal) 생성: 60% 이상 빠름
- HBM 용량: 112GB vs 96GB
주의할 점: H20은 수출 규제로 인해 의도적으로 성능이 제한된 NVIDIA의 "중국 특화" 모델입니다. 이것이 950PR이 H100이나 B200을 이긴다는 의미는 아닙니다. 하지만 중국 본토에서의 추론 워크로드에 대해서는, 이제 국산 하드웨어가 위로용 상품이 아닌 신뢰할 수 있는 대안이 되었음을 의미합니다.
그 일을 해낸 칩: Ascend 950의 이중 아키텍처 전략
950을 흥미롭게 만드는 것은 단순히 가공되지 않은 사양서가 아니라, 아키텍처의 영리함입니다.
Huawei는 LLM 추론 (Inference)이 근본적으로 다른 두 가지 단계로 나뉜다는 점을 깨닫고, 동일한 다이 (Die)를 공유하는 두 개의 별도 칩을 설계했습니다:
| 변형 모델 (Variant) | 단계 (Phase) | 메모리 대역폭 (Memory Bandwidth) | 사양 (Spec) | 상태 (Status) |
|---|---|---|---|---|
| 950PR | Prefill + Recommendation | HiBL 1.0 | 128GB / 1.6 TB/s | ✅ 현재 (2026년 3월부터 양산) |
| 950DT | Decode + Training | HiZQ 2.0 | 144GB / 4 TB/s | Q4 2026 예정 |
Prefill (전체 입력을 읽고 KV 캐시 (KV cache)를 계산하는 단계)는 연산 제한적 (Compute-bound)입니다. 즉, 메모리 대역폭이 아닌 가공되지 않은 FLOPs (연산 능력)가 필요합니다. 이 단계에서는 더 저렴한 HBM (High Bandwidth Memory)으로도 충분합니다. 반면 Decode (한 번에 하나의 토큰을 생성하는 단계)는 메모리 대역폭 제한적 (Memory-bandwidth-bound)입니다. 병목 현상은 연산 유닛에 가중치 (Weights)를 얼마나 빠르게 공급할 수 있느냐에 달려 있습니다. 여기서 4 TB/s의 대역폭은 실질적인 차이를 만들어냅니다. 950DT의 4 TB/s HiZQ 2.0 메모리는 NVIDIA의 H200 (141GB / 4.8 TB/s)과 대등한 수준입니다. 2026년 4분기가 되어야 사용 가능하겠지만, 그때가 되면 훈련 (Training) 측면의 격차가 좁혀지기 시작할 것입니다.
자체 개발 HBM에 대한 도박
HBM은 AI 칩 비용의 약 50%를 차지합니다. Huawei가 자체 HBM인 HiBL (저비용/보급형 라인)과 HiZQ (고성능)를 개발하기로 한 결정은 단순히 공급망 보안만을 위한 것이 아닙니다. 이는 기성품 HBM이 제공할 수 없는 맞춤형 제작 (Customization)을 가능하게 합니다.
현지 HBM 공급망은 실질적인 진전을 보이고 있습니다:
| 이정표 (Milestone) | 상태 (Status) | 일정 (Timeline) |
|---|---|---|
| CXMT (长鑫存储) HBM3 샘플 Huawei에 전달 | ✅ 완료 | Done |
| CXMT 상하이 패키징 팹 (Packaging fab) | 🟡 건설 중 | 2026년 말 |
| CXMT HBM3E 개발 | 🟡 진행 중 | 2027년 목표 |
| CXMT HBM3 양산 | ❌ 미시작 — 아직 대량 주문 없음 | 지연됨 |
병목 현상: CXMT의 HBM3는 여전히 테스트 단계에 있습니다. 원자재는 샘플 실행만 지원할 뿐, 대량 생산을 지원하지는 못합니다. Huawei 연합은 Fujian Jinhua (福建晋华) 및 Wuhan Xinxin (武汉新芯)과도 보조 파운드리 (Foundry)로서 협력하고 있지만, 이들은 보충적인 생산 능력일 뿐 주요 공급원은 아닙니다.
실용적인 현실: HiBL 1.0과 HiZQ 2.0은 DRAM 다이 (Die) 수준이 아니라, 패키징 (Packaging) 및 컨트롤러 (Controller) 수준에서 "자체 개발"되었을 가능성이 높습니다. Huawei는 사용 가능한 DRAM 다이를 가져와 독자적인 2.5D 적층 (Stacking) 기술로 패키징하고 커스텀 컨트롤러를 추가하는 방식을 취하고 있습니다.
이것이 바로 HiBL 1.0의 1.6 TB/s 대역폭(Bandwidth)이 달성 가능한 이유입니다. 이는 설계상의 야망이 아니라, 그들이 조달할 수 있는 다이(Die)에 의해 제한되기 때문입니다.
공급을 제한하는 5가지 병목 현상 (Bottlenecks)
HBM이 헤드라인을 장식하지만, 그것만이 유일한 제약 사항은 아닙니다. 심각도 순으로 정리한 5가지 요소는 다음과 같습니다:
🔴 1. 첨단 제조 (Advanced Manufacturing, SMIC)
가장 어려운 병목 현상입니다. SMIC의 N+2 공정(EUV를 사용할 수 없어 DUV 멀티 패터닝을 사용하는 7nm급 공정)은 월간 약 35,000~38,000장의 12인치 웨이퍼(Wafer) 생산 능력을 갖추고 있습니다. 수율(Yield)을 약 92%로 가정하면, 이는 연간 약 750,000개의 Ascend 950 칩으로 환산됩니다. 75만 개라는 숫자가 많아 보일 수 있지만, 이는 중국 AI 시장 전체를 감당해야 하는 수치입니다. NVIDIA는 연간 수백만 개의 H100/B200 유닛을 출하합니다. 생산 능력의 격차는 수십 배에 달합니다. SMIC는 2026년까지 생산 능력을 월 70,000장으로 두 배 늘릴 계획이지만, EUV 없이 매 세대마다 공정을 진화시키는 것은 기하급수적으로 어려워집니다. 950DT 역시 동일한 N+2 공정을 사용합니다. 국내 첨단 제조 기술의 절대적인 한계는 적어도 2028년까지는 구속 조건(Binding constraint)으로 남을 것입니다.
🟡 2. 첨단 패키징 (Advanced Packaging)
Ascend 950은 2.5D 칩렛(Chiplet) 패키징(2개의 연산 다이 + 2개의 I/O 다이 + HBM)을 필요로 합니다. 이는 '있으면 좋은' 기능이 아니라, 이것 없이는 칩을 조립할 수조차 없는 필수 요소입니다.
공급업체 현황:
- JCET (长电科技) — 동관(Dongguan) HBM 베이스: 풀 가동 중
- Tongfu Micro (通富微电) — SJ1/SJ 라인: 가동률 포화, 긴급 확장 중
- QuLiang Electronics (渠梁电子): 확장 가속화 중
패키징 용량은 단기적으로 가장 타이트한 병목 현상입니다. JCET의 신규 용량과 Tongfu의 확장분은 2027년이 되어서야 의미 있는 공급 증가를 가져올 것입니다. 이것이 바로 '첨단 패키징 관련주'가 2026년 중국 A주 시장에서 가장 뜨거운 반도체 테마인 이유입니다.
🟡 3. 상호 연결 (Interconnect): 8,192개의 카드를 하나의 컴퓨터처럼 작동시키기
Atlas 950 SuperNode(8,192개 카드, 160개 캐비닛, 1,000제곱미터 규모)는 새로운 상호 연결 프로토콜인 Lingqu 2.0 / UnifiedBus를 필요로 합니다. 이전 버전(Lingqu 1.0)은 384개 카드 규모의 Atlas 900 시스템(300개 이상 배포됨)에서 검증되었습니다.
384개에서 8,192개로의 스케일링 (Scaling)은 복잡성 측면에서 거대한 도약입니다: 캐비닛 간의 전체 광학 상호 연결 (Full optical interconnect), 총 대역폭 16 PB/s (글로벌 인터넷 피크 트래픽의 10배), 클러스터당 메가와트 (MW) 규모의 전체 액체 냉각 (All-liquid cooling)이 필요합니다. 이는 2026년 4분기 인도 예정입니다. 엔지니어링 리스크는 실재하지만, (대규모에서 검증된) Lingqu 1.0을 통해 보여준 Huawei의 실적은 이것이 기술적 리스크가 아닌 일정 리스크임을 시사합니다.
🟢 4. 소프트웨어 생태계 (CANN)
CANN은 2025년 12월에 완전히 오픈 소스로 공개되었습니다. DeepSeek V4의 성공적인 포팅 (Porting)은 현재까지 단일 이벤트 중 가장 큰 검증 사례입니다. 하지만 개발자 수의 격차는 극명합니다: CANN 개발자 약 87,000명 대 CUDA 개발자 약 300만 명입니다. Huawei의 전략은 PyTorch 호환 레이어 (Compatibility layers)와 결합된 "CUDA-to-CANN 자동 변환 도구"입니다. 이는 표준 모델 아키텍처 (Model architectures)에는 효과적입니다. 하지만 엣지 케이스 (Edge cases)는 여전히 수동 연산자 재작성 (Manual operator rewriting)을 필요로 하며, 이는 DeepSeek가 투자했던 것과 동일한 30인년 (Person-years) 규모의 작업입니다. 전담 ML 팀을 보유한 대기업에게는 실행 가능한 수준이지만, 소규모 팀에게는 장벽이 됩니다.
🟢 5. 냉각 및 전력
칩당 TDP는 약 310W입니다. 슈퍼노드 (Supernode) 규모에서는 총 전력 소모량이 메가와트 단위에 달합니다. 전체 액체 냉각 (Full liquid cooling)이 필수적이며, 친환경 전력 (Green power) 정렬은 인프라의 복잡성을 더합니다. 이는 해결 가능한 문제입니다. 기술은 이미 존재하지만, 데이터 센터 운영자마다 배포 속도는 다를 것입니다.
장기 전망: 정직한 평가
궤적은 실재합니다. Huawei는 명확한 3세대 로드맵을 가지고 있습니다:
| 세대 | FP8 성능 | FP4 성능 | 메모리 대역폭 (Memory BW) | 예상 시기 |
|---|---|---|---|---|
| 950 (PR + DT) | 1 PFLOPS | 2 PFLOPS | 4 TB/s | 2026년 |
| 960 | 2 PFLOPS | 4 PFLOPS | ~8 TB/s | 2027년 4분기 |
| 970 | 4 PFLOPS | 8 PFLOPS | ~12-16 TB/s | 2028년 4분기 |
각 세대는 사양을 대략 두 배씩 높입니다. 매출은 2026년에 120억 달러에 달할 것으로 예상됩니다 (2025년 75억 달러에서 60% 증가). 비즈니스는 확장 중입니다. 하지만 맥락 파악이 필요합니다.
| 차원 | 2026년 현실 | 2028년 목표 |
|---|---|---|
| 수급 격차 | 🔴 심각 (75만 개 칩 vs 수요의 2-3배) | 🟡 개선 중이나 균형 잡히지 않음 |
| 성능 대비 |
NVIDIA 🟡 950PR ≈ H200 (NVIDIA의 이전 세대 모델) 🟡 960 ≈ 2027년 NVIDIA 공정 노드의 70-80% 🔴 7nm (EUV 미사용) 🔴 여전히 7nm — 칩렛 (Chiplet) 기술이 완화는 하지만 제거할 수는 없음 | 시장 점유율 (중국 추론 시장) ~20% 40-50% (전망치) | 솔직한 평가: Ascend가 절대적인 수치에서 NVIDIA를 "따라잡지는" 못할 것입니다. 공정 격차 (7nm DUV vs 3nm EUV+)는 물리적인 것이며 의지만으로 없앨 수 없습니다. 하지만 따라잡을 필요도 없습니다. 중국의 AI 칩 시장은 구조적으로 이분화되고 있습니다: Ascend가 내수 수요의 약 50%를 차지하고, NVIDIA가 H20 및 밀수되거나 클라우드로 접근 가능한 H100을 통해 하이엔드 시장을 점유하며, 나머지 부분을 다른 중국 로컬 기업들 (Cambricon, Moore Threads, Biren)이 나누어 갖는 구조입니다. 중국 시장을 겨냥해 AI 제품을 만드는 사람들에게 이것은 "전환할 것인가"의 문제가 아니라 "언제 전환할 것인가"의 문제입니다. 글로벌 시장을 겨냥하는 사람들에게는 영향이 없으므로 — CUDA를 계속 사용하면 됩니다. 두 개의 기술 세계가 공고해지고 있습니다: CUDA 세계와 CANN 세계입니다. Ascend 950에서 구동되는 DeepSeek V4가 실제로 증명한 것: 2026년 4월 이전까지 Huawei는 "우리 칩이 작동한다"라고 말할 수 있었습니다. 2026년 4월 이후, DeepSeek는 1.6T 파라미터 모델, 실제 운영 트래픽, 그리고 실제 비용 수치를 통해 이를 증명했습니다. 신뢰성의 격차는 해소되었습니다. 남은 병목 현상들은 모두 물리적이거나 시간적인 문제입니다: 더 많은 칩, 더 많은 패키징 라인, 더 많은 파운드리 (Fab) 용량, 그리고 생태계가 성숙할 수 있는 더 많은 시간입니다. 이 중 어느 것도 즉각적인 해결책은 없습니다. 하지만 이들은 단 하나의 돌파구에 의존하지도 않습니다. 이는 생산 규모 확장 (Production scaling)의 문제이며, 생산 규모 확장은 자본과 시간에 반응합니다. 중국의 AI 칩 생태계는 방금 가장 중요한 스트레스 테스트를 통과했습니다. 남아 있는 병목 현상들은 어렵지만, 이는 "이것이 작동하기나 하는가"라는 이분법적인 승패의 문제가 아니라, 선형적인 발전 곡선을 따르는 종류의 어려움입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기