Huawei AI 칩 매출 2026 년 120 억 달러 전망, Nvidia 중국 시장 점유율 0%
요약
화웨이가 중국 AI 프로세서 시장에서 급부상하며 2026년 매출 120억 달러를 전망하는 가운데, 엔비디아는 중국 시장 점유율이 0%로 추락했다고 인정했습니다. 이 현상은 DeepSeek V4와 같은 최신 LLM이 화웨이의 Ascend 아키텍처에 최적화되면서 발생했으며, 이는 중국 클라우드 기업들이 자국 생태계 중심으로 조달을 가속화했기 때문입니다. 다만, 화웨이는 SMIC 용량 및 수율 문제, 그리고 HBM 공급망 확보 등 해결해야 할 기술적 과제들을 안고 있습니다.
핵심 포인트
- 화웨이의 AI 프로세서 시장 점유율 급증: 2026년 매출 120억 달러 전망으로 중국 내 지배적인 공급자로 자리매김 예상.
- 엔비디아의 중국 시장 철수 가속화: 미국 수출 규제와 현지 정책적 요인으로 인해 엔비디아가 중국 데이터센터 컴퓨팅 시장에서 사실상 경쟁력을 상실함.
- 자국 생태계 최적화 트렌드 심화: DeepSeek V4 같은 주요 LLM이 화웨이의 Ascend 아키텍처에 맞춰 개발되면서, 글로벌 기업들이 자국 기술 스택을 선호하는 경향이 뚜렷해짐.
- 기술 공급망 병목 현상: 화웨이는 SMIC의 용량 확장 및 수율 문제, 그리고 HBM 자체 개발 및 안정적인 공급망 확보라는 과제에 직면함.
Huawei 는 2026 년 AI 프로세서에서 약 120 억 달러의 매출을 기록할 것으로 예상하며, 이는 전년 대비 75 억 달러에서 크게 증가한 수치입니다. 이 예측은 Alibaba, ByteDance, Tencent 등 주요 중국 기술 기업들의 기존 주문을 기반으로 하며, Morgan Stanley 은 2030 년까지 670 억 달러에 달할 것으로 추정하는 국내 AI 칩 시장에서 Huawei 를 지배적인 공급자로 자리매김할 것으로 보입니다. 이러한 급증은 Nvidia CEO Jensen Huang 이 Nvidia 의 중국 AI 가속기 시장 점유율이 0% 로 추락했다고 확인한 것과 동시에 발생했습니다.
이러한 수치는 매우 독특한 속도로 분기된 시장을 설명합니다. 불과 18 개월 전에는 Nvidia 가 중국 클라우드 제공업체가 사용하던 대부분의 AI 학습 및 추론 실리콘을 공급했습니다. 반면, 현재 Huawei 의 Ascend 950PR 이 중국의 가장 큰 기술 기업들의 주요 조달 대상이 되었고, Q4 에 출시 예정인 학습에 특화된 후속 제품인 950DT 가 있습니다.
DeepSeek V4 의 영향력
이 급등한 수요는 4 월에 출시된 DeepSeek 의 V4 LLM 이 Huawei 의 Ascend 아키텍처와 CANN 소프트웨어 프레임워크를 위해 최적화되어 Nvidia 의 CUDA 생태계를 위한 것이 아니라는 사실에 주로 기인합니다. South China Morning Post 에 따르면, Huawei 엔지니어들은 모델 출시 전에 DeepSeek 과 직접 협력한 것으로 알려져 있으며, 회사는 V4 추론을 위해 첫 날부터 전체 Ascend SuperNode 제품 라인을 적응시켰다고 확인했습니다. Alibaba Cloud 와 Tencent Cloud 는 출시 후 수 시간 내에 V4 서비스를 배포했습니다.
950PR 은 현재 FP8 을 지원하는 유일한 중국산 AI 프로세서로, 더 많은 연산을 초래하고 쿼리당 비용을 낮추는 압축된 수치 형식입니다. V4 는 최대 1 조 개의 파라미터를 가진 전문가 혼합 아키텍처 (Mixture-of-Experts) 를 사용하며, 추론 패스당 약 37 억 개만 활성화합니다. 이는 추론 효율적인 하드웨어에 유리하며, 이는 950PR 의 강점을 활용하고 원천 학습 성능의 한계를 극복합니다.
DeepSeek 은 Huawei 에 초기 최적화 접근을 제공했지만 Nvidia 나 AMD 에는 그렇지 않았습니다. V4 의 오픈 웨이트 는 CUDA 기반 프레임워크와 호환되는 표준 형식으로 출시되었지만, DeepSeek 의 자체 인프라는 Huawei Ascend 실리콘 위에서 실행됩니다. 이 협력은 중국 클라우드 산업의 조달 기간을 앞당겼으며, 수요로 인해 950PR 칩 가격은 약 20% 상승했습니다.
SMIC 용량 및 생산
Huawei 가 이러한 주문을 채우는 능력은 중국의 주요 파브인 SMIC 에 달려 있습니다. SMIC 는 EUV 리소그래피 없이 제작된 N+3 프로세스의 7nm 클래스 노드에서 950PR 을 제조합니다. Huawei 는 올해 약 75 만 개의 950PR 단위를 생산할 것을 목표로 하며, 1 월에 고객에게 샘플을 배송한 후 하반기에 전체 규모의 수송이 예상되지만, 이 수치는 수요를 충족하지 못할 것으로 예상됩니다.
SMIC 은 1 년 이상 고도화 노드 (advanced-node) 용량 확장을 위해 노력해 왔습니다. 목표는 2 년 기간 동안 5 배 증가로, 7nm 와 5nm 생산량을 월 10 만 판 (wafers per month) 으로 높이고 2030 년에는 50 만 판으로 확대하는 것입니다. 또한, 22nm 이하의 합계 용량은 2025 년에 월 3 만5 만 판에서 올해는 월 5 만6 만 판 이상으로 증가할 수 있습니다. Huawei 는 두 개의 전용 제조 공장을 추가하고 있지만 소유 구조는 아직 명확하지 않습니다. 완전히 가동되면 해당 시설은 SMIC 의 현재 출력보다 초과할 수 있습니다.
수율 (yield) 은 중국의 문제점으로 남았습니다. SMIC 의 7nm 클래스 프로세스는 TSMC 의 등가 노드보다 월당 좋은 칩 (good dies per wafer) 이 현저히 적고, 950PR 은 TSMC 의 등가 칩보다 훨씬 더 큰 칩일 가능성이 큽니다. JP Morgan 의 추정에 따르면 SMIC 의 Ascend 프로세서로 완제품 및 패키징까지의 사이클 타임은 현재 약 8 개월으로, 이는 문제입니다. TSMC 의 유사 노드에서는 약 3 개월입니다.
또한 HBM (High Bandwidth Memory) 에 대한 문제가 있습니다. Huawei 는 9 월에 CXMT 와 협력하여 최대 1.6 TB/s 대역폭을 가진 자체 HBM 칩인 HiBL 1.0 과 HiZQ 2.0 을 개발했다고 발표했습니다. 그러나 CXMT 가 경쟁력 있는 HBM 생산을 얼마나 빠르게 확대할 수 있는지 여부는 여전히 열린 질문입니다.
Nvidia 의 중국에서의 붕괴
Huang 이 "중국에서는 이제 우리가 0 으로 떨어졌습니다"라고 인정하는 것은 Special Competitive Studies Project 의 "President Memos" 팟캐스트 인터뷰 중이었습니다. 그는 미국 수출 정책을 "이미 대부분 역효과를 냈다"고 비판하며, 중국 크기의 시장을 양보한다고 해서 전략적으로 의미가 없다고 주장했습니다.
Nvidia 는 9 월에 중국 판매를 위해 미국 라이선스를 받았습니다. H200 은 주문을 받았음에도 불구하고 단 한 대도 수송되지 않았습니다. 워싱턴과 베이징의 모순된 규제 요구는 관세에서 고착화를 만들었습니다: 미국 규제 기관은 중국 고객이 주문한 H200 칩이 중국 내에서만 사용되어야 한다고 요구하며, 베이징은 국내 기술 회사들에게 Nvidia 하드웨어를 해외 운영에 제한하도록 지시했습니다.
Nvidia 는 FY2026 10-K filing 에서 "중국 데이터센터 컴퓨팅 시장에서 경쟁을 사실상 차단받았다"고 확인했으며, 현재 전망에서 해당 지역의 데이터센터 컴퓨팅 수익을 예상하지 않고 있습니다. Bernstein 분석가들은 올해 초 Nvidia 의 중국 AI GPU 시장 점유율이 향후 몇 년 동안 약 8% 로 떨어질 것으로 추정했습니다. 이는 미국 제재와 국내 벤더들이 국내 수요의 최대 80% 를 커버하도록 강요받았기 때문입니다. TrendForce 는 12 월에 중국의 고도화 AI 칩 시장이 2026 년에 60% 이상 성장할 것이며, 국내 공급자가 약 절반을 차지할 것으로 예측했습니다.
950PR 성능
950PR 은 Nvidia 의 H100 과 H200 사이에서 수행되며, 제한된 H200 보다 약 2.8 배의 성능을 초과하지만 H200 에서는 컴퓨팅 및 메모리 대역폭 모두에서 뒤처집니다. 그러나 이 2.8 배 수치는 검증할 수 없습니다. Hopper 시대의 하드웨어는 FP4 를 원천적으로 지원하지 bowiem 때문입니다.
Huawei 는 광 인터커넥트를 통해 많은 프로세서들을 연결하여 이를 보상합니다. CloudMatrix 384 시스템은 Ascend 모듈의 12 개 랩을 결합하여 약 300 PFLOPS 의 성능을 제공하는 384 프로세서 직물 (fabric) 을 만듭니다. 이는 Nvidia 의 비교 가능한 GB200 기반 구성보다 전력 소모가 거의 4 배입니다.
950PR 는 주로 추론 (Inference) 칩이며, Q4 에 출시 예정인 학습 (Training) 을 위한 950DT 는 딥러닝 워크로드에 최적화되어 있으며 모델 훈련 작업에서 Nvidia 의 Hopper 세대와의 격차를 좁힐 수 있습니다. 출시 전까지 중국 기업들은 대규모 기초 모델 (Foundation Model) 을 국내에서 훈련해야 할 경우 추론 실리콘으로만 해결할 수 있는 제약에 직면하게 됩니다.
Huawei 의 CANN 소프트웨어 생태계는 현재 400 만 명의 개발자를 보유하고 있다고 추정되지만, Nvidia 의 CUDA 설치 기반에는 여전히 훨씬 작습니다. CANN 이 충분한 제 3 자 개발을 유치하여 자체적으로 지속 가능한 생태계가 될 수 있을지는 아직 알 수 없습니다. 현재 중국 내에서는 Huawei 가 우위를 점하고 있으며, 이는 대안 (Alternatives) 의 단순한 부재에 의해 추진되고 있습니다.
Luke James 는 프리랜서 작가이자 저널리스트입니다. 그의 배경은 법률 분야이지만, 기술 전반에 대한 개인적인 관심이 있으며 특히 하드웨어와 마이크로전자기기 및 규제 관련 분야를 선호합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Tom's Hardware의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기