맞춤형 AI ASIC 시장 현황 (2026년 5월) — Broadcom의 거래, Google TPU, Meta MTIA 및 그 너머 - Insights | Molayo

Google's Alphachip TPU

Nvidia는 여전히 AI 칩 시장 점유율의 약 70%를 차지하고 있지만, Google, Amazon, Meta, Microsoft, 그리고 OpenAI가 자신들의 특정 워크로드 (Workload)에 맞게 설계된 전용 칩에 수십억 달러를 투자함에 따라 그 점유율은 점차 잠식될 것으로 예상됩니다. ASIC (주문형 반도체) 기반 AI 서버 출하량은 2026년에 시장의 27.8%에 달할 것으로 전망되며, 이는 2023년 이후 가장 높은 점유율입니다. 또한 2026년 맞춤형 ASIC 출하량은 전년 대비 44.6% 성장할 것으로 예측되는데, 이는 범용 GPU (Merchant GPU)의 예상 성장률인 16.1%의 거의 세 배에 달하는 수치입니다.

이러한 변화는 거의 전적으로 TSMC에 의해 가능해지고 있으며, TSMC는 5대 하이퍼스케일러 (Hyperscaler)와 지배적인 맞춤형 AI 칩 설계 기업인 Broadcom을 위해 칩을 제조하고 있습니다. Broadcom 한 곳만 해도 730억 달러의 AI 수주 잔고 (Backlog)를 보유하고 있으며, 2027년까지 연간 AI 칩 매출 1,000억 달러 달성을 목표로 하고 있습니다.

Amazon의 Trainium 및 Microsoft의 Maia 프로젝트에 협력하고 있는 Marvell은 2026년 AI ASIC 매출이 최대 110억 달러에 달할 것으로 전망합니다. Broadcom과 Marvell은 합쳐서 맞춤형 AI ASIC 공동 설계 (Co-design) 시장의 약 95%를 장악하고 있습니다.

따라서 2026년과 그 이후에 걸쳐 시장이 크게 확장될 것으로 예상됨에 따라, 현재 기업들이 무엇을 하고 있는지, 그리고 향후 어디로 향할지에 대해 살펴보고자 합니다.

Broadcom

Broadcom Logo next to campus

AI ASIC 생태계의 핵심 조력자로 부상했다고 볼 수 있는 Broadcom은 2026 회계연도 1분기(2026년 2월 종료)에 전년 대비 106% 증가한 84억 달러의 AI 반도체 매출을 기록했으며, 2분기 가이던스로 107억 달러를 제시했습니다. CEO Hock Tan은 투자자들에게 공개된 730억 달러의 AI 수주 잔고를 바탕으로, 회사가 "2027년에 칩을 통한 AI 매출 1,000억 달러 이상을 달성할 수 있는 가시성을 확보했다"고 밝혔습니다.

Broadcom은 가장 오래된 파트너로서 2014년부터 7세대에 걸친 TPU 공동 설계를 이어온 Google을 포함하여 6개의 주요 XPU 고객사를 확인했습니다. OpenAI는 2025년 10월, 10기가와트(GW) 규모의 맞춤형 가속기(custom accelerators)를 위한 다년 협력 계약을 체결했으며, 3nm 및 2nm 설계를 모두 사용하여 2026년 하반기를 첫 배포 목표로 삼고 있습니다. 해당 계약은 OpenAI가 별도의 100억 달러 규모 주문의 배후에 있다는 보도가 널리 퍼진 이후에 이루어졌습니다. 그러나 Broadcom의 반도체 사장인 Charlie Kawwas는 CNBC에서 OpenAI가 "아직 저에게 그 구매 주문서(PO)를 주지 않았다"라고 농담조로 말하며, 미지의 고객의 정체는 공식적으로 확인되지 않은 상태로 남겨두었습니다.

Meta, ByteDance, Fujitsu가 확인된 고객 명단을 완성하며, 분석가들은 Apple과 Arm/SoftBank를 잠재적인 미래 협력 대상으로 지목했습니다. Arm은 별도로 OpenAI의 Broadcom 제작 가속기를 위한 맞춤형 CPU를 개발 중이며, 이 계약은 SoftBank에 수십억 달러의 가치를 가져다줄 수 있습니다.

이러한 성장의 이면에 있는 기술은 Broadcom의 3.5D XDSiP 플랫폼으로, 이는 TSMC의 SoIC 공정을 통한 face-to-face 3D 적층(stacking)과 2.5D CoWoS 통합을 결합하여 사용합니다. 이 플랫폼은 최대 12개의 HBM 스택을 포함하여 6,000 mm²를 초과하는 실리콘 패키징을 가능하게 하며, 이는 기존 2.5D 설계의 약 2,500 mm² 제한을 훨씬 뛰어넘는 수준입니다. 지난 2월, Broadcom은 이 플랫폼을 기반으로 구축된 업계 최초의 2nm 컴퓨팅 SoC(System on Chip) 출하를 시작했다고 발표했으며, 여기에는 4개의 N2 컴퓨팅 다이(die), 1개의 I/O 다이, 그리고 6개의 HBM 모듈이 통합되어 있습니다.

네트워킹 측면에서 Broadcom의 Tomahawk 6 스위치 칩은 업계 최초의 102.4 Tbps 이더넷(Ethernet) 부품으로서 지난 3월 양산에 들어갔습니다. 동반되는 Jericho 4 패브릭(fabric) 칩(51.2 Tbps)은 지난 8월 출하를 시작했으며, 데이터 센터 전반에 걸쳐 100만 개 이상의 XPU를 상호 연결하도록 설계되었습니다. 한편, Nvidia의 경쟁 제품인 Spectrum-X1600은 2026년 하반기 전까지는 양산될 것으로 예상되지 않습니다.

Google TPU

The Google TPU 8i and 8t chips

Google의 TPU 프로그램은 하이퍼스케일러 (Hyperscalers) 중 가장 성숙한 맞춤형 AI 실리콘 (Custom AI Silicon) 노력이며, 최신 세대는 상당한 아키텍처적 도약을 보여줍니다. 코드명 Ironwood인 TPU v7은 2025년 4월 Cloud Next에서 발표되었으며 11월에 프리뷰 단계에 진입했습니다. 각 칩은 7.37 TB/s 대역폭의 192 GB HBM3E 메모리와 함께 4,614 FP8 TFLOPS를 제공합니다. 이 칩은 Broadcom 및 MediaTek과 공동 개발한 듀얼 칩렛 (Dual-chiplet) 설계로 TSMC의 N3P 공정에서 제조되며, 두 배로 늘어난 256x256 MXU 어레이를 갖춘 두 개의 TensorCore와 네 개의 SparseCore를 특징으로 합니다.

9,216개 칩으로 구성된 슈퍼팟 (Superpod) 구성은 1.77 PB의 총 HBM과 함께 42.5 FP8 exaflops를 제공합니다. 칩당 성능을 보면, Ironwood의 4,614 TFLOPS는 Blackwell의 약 5,000 FP8 TFLOPS에 근접하지만, SemiAnalysis는 TPU가 트랜스포머 (Transformers) 모델에 대해 GPU의 70%~80% 대비 약 90%에 달하는 더 높은 지속 모델 FLOP 활용률 (Sustained model FLOP utilization)을 달성한다고 추정하며, 이는 실제 성능 격차를 좁히거나 없애는 역할을 합니다. Google은 자체 조달 관점에서 Ironwood 칩당 총 소유 비용 (TCO)이 GB200 서버보다 약 44% 더 낮다고 주장합니다.

Google은 현재 자체 서비스를 넘어 TPU 액세스를 공격적으로 판매하고 있습니다. Anthropic은 지난 10월 Google Cloud 역사상 최대 규모의 거래로 최대 100만 개의 TPU를 확보하기로 약정했으며, Meta는 올해 2월 수십억 달러 규모의 TPU 배포를 위한 논의에 착수했습니다. 현재 세대인 TPU v6e Trillium은 Google Cloud에서 온디맨드(On-demand)로 칩 시간당 2.70달러에 널리 이용 가능하며, Google의 자체 벤치마크에 따르면 LLM 워크로드에 대해 H100 인스턴스보다 약 4배 더 나은 가격 대비 성능을 제공합니다. Neoverse V2를 기반으로 하며 TrendForce에 따르면 TSMC 3nm 공정에서 제조되는 것으로 알려진 Google의 Axion ARM CPU는 범용 클라우드 워크로드를 위해 TPU를 보완합니다.

Amazon Trainium

Meta AWS Graviton deal

Amazon Trainium

Meta AWS Graviton deal

AWS는 2015년 Amazon이 인수한 이스라엘 칩 설계 전문 기업인 Annapurna Labs가 개발한 공격적인 맞춤형 실리콘 (Custom Silicon) 로드맵을 통해 Google의 속도에 발을 맞췄습니다. 지난 12월 re:Invent에서 정식 출시된 Trainium3는 AWS의 첫 번째 3nm 칩입니다. 각 Trainium3는 4.9 TB/s 대역폭의 144GB HBM3E를 탑재하여 2.517 PFLOPS FP8 성능을 제공하며, 이는 이전 모델 대비 연산 능력은 약 2배, 메모리는 1.5배 향상된 수치입니다. 새로운 Trn3 UltraServer는 144개의 칩을 탑재하여 20.7 TB의 메모리와 함께 362 FP8 petaflops를 제공하며, 이는 Trn2 UltraServer 대비 4.4배 개선된 성능입니다.

AWS의 CEO Matt Garman은 re:Invent 2025에서 회사가 "이미 100만 개 이상의 Trainium 프로세서를 배치했으며" 생산이 허용하는 한 빠르게 판매하고 있다고 밝혔습니다. Andy Jassy CEO는 이를 "이미 수십억 달러 규모의 비즈니스"라고 불렀습니다. 110억 달러 규모의 2.2 GW 캠퍼스인 인디애나주의 Project Rainier 시설에는 2025년 10월 기준으로 Anthropic을 위해 구동되는 약 500,000개의 Trainium2 칩이 있었으며, AWS는 또한 OpenAI에 2 GW의 Trainium 컴퓨팅 용량을 공급하는 계약을 체결했음을 확인했습니다.

Trainium4는 2025년 12월에 발표되었으며 2026년 말 또는 2027년 초에 사용 가능할 예정입니다. Trainium4는 Trainium3 대비 3배의 FP8 성능, 6배의 FP4 처리량(Throughput), 4배의 메모리 대역폭을 약속하며, 예상 메모리 용량은 288 GB입니다. 주목할 만한 특징 중 하나는 Nvidia NVLink Fusion 지원으로, 이를 통해 Trainium과 Nvidia GPU를 혼합한 하이브리드 클러스터 (Hybrid Clusters) 구성이 가능해집니다. AWS의 Graviton5 ARM CPU (192 코어, TSMC 3nm, Neoverse V3) 또한 re:Invent 2025에서 발표되었습니다.

Meta MTIA

Meta는 지난 3월, 이미 출하 중인 MTIA 100 및 200 외에도 2027년까지 배포될 4개의 새로운 MTIA 세대(300에서 500 시리즈)를 공개하며 업계에서 가장 야심 찬 맞춤형 칩 로드맵 중 하나를 드러냈습니다. 이 회사는 Facebook과 Instagram 전반에 걸쳐 추론 (Inference) 용도로 수십만 개의 MTIA 칩을 배치했습니다.

MTIA 400은 1,200W 전력 범위 내에서 288GB HBM과 9.2 Tbps 대역폭을 갖추고 6 PFLOPS FP8 및 18 PFLOPS MX4를 제공합니다. 2027년 대규모 배포가 예정된 MTIA 500은 2x2 칩렛 (Chiplet) 구성으로 1,700W를 소비하며, 최대 512GB HBM과 27.6 Tbps 대역폭을 통해 10 PFLOPS FP8 및 30 PFLOPS MX4로 확장됩니다. MTIA 300에서 500으로 넘어가면서 HBM 대역폭은 4.5배 증가하고 연산 능력은 25배 확장되며, 약 6개월마다 새로운 칩이 출시되고 있습니다.

Meta는 MTIA가 Nvidia GPU를 대체하는 것이 아니라고 명시해 왔습니다. 이 회사는 지난 2월, Grace Blackwell 및 향후 Vera Rubin 플랫폼을 포함한 "수백만 개의 AI 칩"을 확보하기 위해 Nvidia와의 파트너십을 확장했으며, 이 거래 규모는 수백억 달러에 달하는 것으로 알려졌습니다. 맞춤형 실리콘 (Custom silicon)은 대규모의 최적화된 추론 (Inference)을 처리하고, Nvidia는 프런티어 모델 학습 (Training)을 담당합니다.

2026년 자본 지출 (Capex) 가이던스를 1,150억~1,350억 달러로 제시한 Meta는 두 소스 모두로부터 가능한 모든 것을 구매하고 있습니다. MTIA 칩은 TSMC의 첨단 공정에서 제조됩니다. MTIA 100은 7nm, MTIA 200은 5nm에서 제조되며, 300 시리즈부터는 CoWoS 패키징과 함께 3nm로 전환되는 것으로 알려졌습니다.

Microsoft, Tesla 및 기타 노력

Microsoft의 맞춤형 실리콘 프로그램은 지난 1월, 1,400억 개 이상의 트랜지스터를 탑재하고 TSMC 3nm 공정으로 제조된 Maia 200을 배치하며 중요한 진전을 이루었습니다. 이 칩은 750W 전력 범위 내에서 216GB HBM3E와 7 TB/s 대역폭을 갖추고 10 PFLOPS FP4 이상의 성능과 5 PFLOPS FP8를 제공합니다. Microsoft는 이 칩이 기존 플릿 (Fleet) 내 최고의 하드웨어보다 달러당 성능이 30% 더 뛰어나다고 주장하며, 이를 "어떠한 하이퍼스케일러 (Hyperscaler)의 퍼스트 파티 실리콘 중 가장 성능이 뛰어난 제품"이라고 부릅니다. Maia 200은 현재 OpenAI의 GPT-5.2 모델을 지원하고 있으며, Des Moines 데이터 센터에서 Microsoft 365 Copilot 워크로드를 구동하고 있습니다.

하지만 Maia 200으로 가는 길은 결코 순탄하지 않았습니다. TSMC 5nm 공정으로 제작된 기존 Maia 100은 생성형 AI (Generative AI)보다는 이미지 프로세싱 (Image Processing)에 더 특화되도록 설계되었으며, 대규모 생산 AI 서비스를 구동한 적은 없다고 알려졌습니다. Maia 200은 OpenAI가 요청한 설계 변경으로 인한 시뮬레이션 불안정성과 칩 팀의 인력 이탈로 인해 약 6개월 정도 지연되었습니다. CEO Satya Nadella는 Microsoft가 Maia와 병행하여 Nvidia 및 AMD 칩을 계속 구매할 것이라고 강조했습니다. Microsoft의 Cobalt 200 Arm CPU (TSMC 3nm, 132 Neoverse V3 코어)는 Ignite 2025에서 발표되었으며, 현재 Azure 데이터 센터에서 가동 중입니다.

Nvidia A100

한편, Tesla의 Dojo 프로젝트는 매우 다른 운명을 맞이했습니다. 수년간의 개발과 혁신적인 D1 칩 (TSMC 7nm, 500억 개의 트랜지스터, 362 TFLOPS BF16, 독특한 354코어 메쉬 아키텍처)에도 불구하고, Tesla는 8월에 Dojo 팀을 해체했습니다. 수석 아키텍트인 Peter Bannon이 떠났고, 약 20명의 엔지니어가 DensityAI를 설립하기 위해 회사를 떠났습니다. Elon Musk는 "모든 경로가 AI6로 수렴된다는 것이 명확해진 순간, Dojo를 중단해야만 했습니다"라고 설명했습니다. Tesla는 현재 AI5 및 AI6 추론 (Inference) 칩에 집중하고 있으며, AI6는 165억 달러 규모의 Samsung 제조 계약을 지원받고 있는 한편, 현재의 학습 (Training) 요구 사항은 Nvidia 하드웨어에 의존하고 있습니다.

다른 경쟁자들 중에서는 Intel의 Gaudi 3가 소프트웨어 성숙도 문제로 어려움을 겪으며 목표치를 달성하지 못했습니다. 2024년 출하 목표는 30% 이상 삭감되었으며, Habana Labs 브랜드는 CEO Lip-Bu Tan 체제하의 Intel의 광범위한 가속기 (Accelerator) 노력 속으로 흡수되고 있습니다. 중국에서는 Huawei의 Ascend 910C (SMIC 7nm, 약 800 TFLOPS FP16, 128GB HBM)가 2026년에 60만 대를 목표로 하고 있으나, 약 20% 수준의 수율 (Yield) 문제에 직면해 있습니다. 한편, Cambricon은 생산량을 50만 개로 세 배 늘릴 계획입니다.

TSMC가 이 모든 것을 가능하게 합니다

TSMC는 이러한 모든 맞춤형 AI ASIC 노력에 있어 없어서는 안 될 조력자입니다. 이 파운드리 (Foundry)는 2025년에 전년 대비 36% 증가한 1,224억 달러의 매출을 기록했으며, 2029년까지 AI 칩 매출이 연평균 60%의 복합 성장률 (CAGR)을 기록할 것으로 전망하고 있습니다.

TSMC의 CoWoS (Chip on Wafer on Substrate) 첨단 패키징 생산 능력은 2025년 월간 약 65,000~~75,000 웨이퍼 수준에서 2026년 월간 120,000~~130,000 웨이퍼 목표로 확장되고 있으며, 해당 연도에는 최대 560억 달러의 자본 지출 (CapEx)이 계획되어 있습니다. 2nm 노드는 작년 말 후공정 (Back-end)에서 양산에 들어갔으며, 생산 용량이 이미 모두 예약되어 연말까지 월간 60,000 웨이퍼 이상을 목표로 하고 있습니다. Nvidia는 CoWoS 할당량의 약 60% (약 595,000 웨이퍼)를 확보했으며, Broadcom은 약 15% (약 150,000 웨이퍼), AMD는 약 11% (약 105,000 웨이퍼)를 확보했습니다. 이 글에서 언급된 모든 맞춤형 ASIC (Custom ASIC)은 HBM (High Bandwidth Memory) 통합을 위해 CoWoS 또는 그 후속 기술인 CoWoS-L에 의존하고 있으며, 현재 TSMC의 패키징 용량은 웨이퍼 제조 (Wafer fabrication) 자체보다 더 강력한 제약 요인이 되고 있습니다.

맞춤형 ASIC 채택의 추진 동력은 물론 추론 (Inference) 워크로드의 급격한 성장이며, Deloitte는 올해 전체 AI 연산의 3분의 2를 추론이 차지할 것으로 전망했습니다.

맞춤형 AI ASIC 시장 현황 (2026년 5월) — Broadcom의 거래, Google TPU, Meta MTIA 및 그 너머

요약

핵심 포인트

Broadcom

Google TPU

Amazon Trainium

Amazon Trainium

Meta MTIA

Microsoft, Tesla 및 기타 노력

TSMC가 이 모든 것을 가능하게 합니다

댓글