칩 제조사들, Nvidia의 독주로 억눌렸던 기술적 성능 경쟁 재점화: 2026 AI 칩 벤치마크 전쟁 설명

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽을 수 있습니다.

최종 업데이트: 2026년 6월 20일

칩 제조사들이 Nvidia의 독주로 인해 억눌렸던 기술적 성능 경쟁을 재점화하고 있습니다. 그리고 이 단 한 번의 변화는 올해 그 어떤 제품 출시보다 더 중요합니다. Nvidia는 단순히 AI 칩 레이스에서 승리한 것이 아니라, 레이스 자체를 취소해 버렸습니다. 이로 인해 성능 벤치마킹 (benchmarking)은 마치 Formula 1 트랙에서 말의 속도를 겨루는 것처럼 무의미하게 느껴졌습니다. 이제 그 레이스가 다시 시작되었으며, 이는 전 세계 모든 AI 인프라 (infrastructure) 예산에 지각 변동을 일으킬 만큼 중대한 영향을 미칩니다.

이 글을 읽고 나면, 어떤 칩이 어떤 워크로드 (workloads)에서 Nvidia를 이기는지, 비용은 얼마인지, 그리고 조달 계약을 체결하기 전에 어떻게 직접 벤치마크를 실행할 수 있는지 알게 될 것입니다. 프로덕션 시스템 (production systems)을 구축 중이라면, 이 글을 우리의 기업용 AI 인프라 (enterprise AI infrastructure) 가이드와 함께 살펴보시기 바랍니다.

AI chip benchmark comparison chart showing Nvidia H100 versus AMD MI300X and Google TPU v5p throughput

조어된 프레임워크 (Coined Framework)

벤치마크 부활 효과 (The Benchmark Resurrection Effect) — 지배적인 플레이어의 해자 (moat)에 처음으로 신뢰할 만한 균열이 보이는 순간, 억눌렸던 하드웨어 성능 경쟁이 다시 나타나 산업 전체 스택에 걸쳐 인프라 가정에 대한 연쇄적인 재평가를 촉발하는 현상

한 벤더가 시장의 80% 이상을 점유하면, 구매자들은 대안을 벤치마킹하는 것을 멈춥니다. 비교는 그저 보여주기식 행위가 됩니다. 신뢰할 만한 도전자이 등장하는 순간, 억눌렸던 경쟁이 한꺼번에 부활하며 산업 전체가 조용히 질문하기를 멈췄던 가정들을 다시 감사 (re-audit)하도록 강제합니다.

발표된 내용: Bloomberg 보고서와 벤치마크의 부활

Bloomberg 이야기: 주요 사실, 날짜 및 공식 출처

이 논지는 기술적인 것이 아니라 구조적인 것입니다. 지난 3년 동안 Nvidia의 선두는 너무나 압도적이어서, 경쟁사들의 벤치마크 제출은 진정한 경쟁이 아닌 홍보(PR) 활동처럼 보였습니다. Bloomberg의 프레임워크는 구체적인 신호를 보내고 있습니다. 즉, 해자(Moat)에 처음으로 신뢰할 만한 균열이 생겼다는 것입니다. 이는 해자가 사라졌다는 것과는 다릅니다. 해자는 사라지지 않았습니다. 하지만 균열이 생겼고, 그것만으로도 충분합니다.

왜 이 이야기가 지금 터져 나왔는가: Meta, Google, 그리고 조달(Procurement)의 변화

촉매제는 Meta가 TPU 조달을 두고 Google과 수십억 달러 규모의 논의를 진행 중이라는 보고였습니다. 세계 최대의 AI 구매자가 공개적으로 Nvidia의 대안을 고려하기 시작할 때, 다른 모든 CTO는 똑같이 불편한 질문을 던질 수밖에 없습니다. "우리도 벤치마크를 수행해야 하는 것 아닌가?" 저는 그렇다고 주장하며, 솔직히 말해서 여러분은 더 일찍 이 질문을 던졌어야 했습니다.

Meta가 TPU를 수십억 달러 단위로 가격을 책정하기 시작할 때, 질문은 'Nvidia와 경쟁할 만한 것이 있는가?'에서 '왜 우리가 직접 벤치마크를 수행하지 않는가?'로 바뀝니다.

어떤 칩 제조사들이 성능 경쟁장에 재진입하고 있는가

언급된 참가자들은 다음과 같습니다: AMD (MI300X, MI325X), Google (TPU v5e, TPU v5p), Intel (Gaudi 3), 그리고 Qualcomm (Cloud AI 100 Ultra) — 이들은 Nvidia의 H200 및 Blackwell GB200과 맞붙게 됩니다. 각 기업은 이제 2023~2024년 동안에는 전혀 일어나지 않았던 방식으로 공개적인 성능 지표(Performance metrics)를 활용하여 적극적으로 다시 참여하고 있습니다. 점수판이 다시 채워지고 있습니다. 만약 여러분이 에이전틱 스택(Agentic stack)을 위해 이러한 변화를 평가하고 있다면, 당사의 AI 에이전트 아키텍처 (AI agent architecture) 분석을 통해 하드웨어 선택이 왜 런타임 비용(Runtime cost)으로 이어지는지 설명해 드립니다.

80% 이상
2023-2024년 동안 Nvidia의 추정 AI 학습용 칩 매출 점유율
[Omdia, 2024](https://omdia.tech.informa.com/)
...

AI 칩 성능 다툼의 실체 — 그리고 작동 방식

본질적으로, 이것은 MLPerf를 둘러싼 싸움이자, AI 하드웨어에 있어 '빠르다'는 것이 무엇을 의미하는지에 대한 싸움입니다. 이 부활을 이해하려면, 현재 모든 이들이 다시 불러내고 있는 프레임워크를 이해해야 합니다.

MLPerf: 경쟁을 정의하는 벤치마킹 프레임워크

MLCommons에서 운영하는 MLPerf는 주요 독립 벤치마킹 스위트 (benchmarking suite)입니다. 이는 데이터센터(datacenter)와 엣지(edge) 카테고리 모두에서 학습 워크로드 (training workloads: ResNet-50, BERT, GPT-3, Stable Diffusion) 및 추론 워크로드 (inference workloads)를 다룹니다. 이는 업계에서 중립적인 점수판에 가장 가까운 도구이며, 바로 그렇기 때문에 벤더들이 다시 여기에 참여하는 것이 중요합니다. MLPerf가 완벽하기 때문이 아닙니다. 완벽하지 않습니다. 하지만 이것이 우리가 가진 최선의 도구입니다.

2026년 AI 칩 성능이 실제로 측정되는 방식

성능은 처리량 (throughput: 추론의 경우 초당 쿼리 수(queries-per-second), 학습의 경우 초당 샘플 수(samples-per-second)), 목표 정확도 도달을 위한 학습 시간 (time-to-train-to-target-accuracy), 그리고 점점 더 중요해지는 가성비 (price-performance)로 측정됩니다. 마지막 지표야말로 도전자들이 실제로 우위를 점하는 지점입니다. 토큰당 비용 (dollars-per-token) 측면에서 Nvidia를 이길 수 있다면, 순수 속도 (raw speed)에서 이길 필요는 없습니다. 저는 어쨌든 대부분의 프로덕션 팀이 최적화해야 할 유일한 수치가 바로 이것이라고 주장하고 싶습니다.

AI 칩 벤치마크 사이클이 경쟁을 부활시키는 방식

  1

    **해자 균열 (Meta–Google TPU 논의)**

신뢰할 수 있는 구매자가 공개적으로 대안을 고려함으로써, Nvidia가 유일한 선택지라는 가정을 깨뜨립니다.

↓

  2
...

도전자들이 경쟁력 있는 결과를 제출하고, 벤더들이 가성비 (price-performance) 주장을 발표합니다. 점수판이 다시 채워집니다.

↓

  3
...

기업 구매자들이 AMD/TPU/Gaudi에서 자체 워크로드를 실행하며, 3년 기간에 걸쳐 총소유비용 (TCO) 모델이 재구축됩니다.

↓

  4
...

대안 공급이 GPU 대여 시장을 압박하며, H100 스팟 가격 (spot prices)이 하락하여 부활의 루프 (resurrection loop)를 검증합니다.

이 순서가 중요합니다. 경쟁은 점진적으로 돌아오는 것이 아니라, 해자 (moat) 가정이 깨지는 순간 즉시 부활합니다.

왜 Nvidia의 독주가 3년 동안 이 논의를 억눌렀는가

이러한 억제는 시장 구조적인 문제였습니다. H100이 이전 세대인 A100보다 약 3.9배 높은 학습 처리량 (training throughput)을 제공했을 때, 세대 간의 도약이 너무나 컸기 때문에 경쟁사들의 MLPerf 제출물은 진정한 도전이라기보다는 홍보(PR) 활동에 가까워졌습니다. Omdia에 따르면 Nvidia가 학습용 칩 매출의 80% 이상을 점유하고 있었기에, 구매자들은 단순히 대안 제품들을 진지하게 벤치마킹하는 것을 중단했습니다. 승자가 이미 시상대에 올라와 있는데 왜 굳이 다른 분야를 조사하겠습니까?

AI 예산에서 가장 비용이 많이 드는 항목은 GPU가 아닙니다. 바로 GPU 공급업체가 단 하나뿐이라는 가정입니다. '벤치마크 부활 효과 (Benchmark Resurrection Effect)'가 존재하는 이유는 바로 그 가정이 수년간 검토되지 않았기 때문입니다.

Diagram of MLPerf benchmark categories spanning training and inference workloads for datacenter AI chips

MLPerf의 워크로드 분류 체계(workload taxonomy) — 데이터가 다시 채워지는 것은 벤치마크 전쟁의 귀환을 알리는 중립적인 점수판입니다. 출처

전체 역량 분석: 누가 경쟁하고 있으며 무엇을 주장하는가

마케팅 슬라이드가 아닌 실제 사양을 바탕으로, 각 도전자가 실제 전투에서 무엇을 가져오는지 살펴보겠습니다.

AMD MI300X 및 MI325X: 가장 신뢰할 만한 강력한 도전자

AMD MI300X는 192GB의 HBM3 메모리를 탑재하고 있으며, 이는 H100 SXM의 80GB보다 두 배 이상 많습니다. 메모리 대역폭(memory bandwidth)이 제약 조건이 되는 대규모 모델 추론(inference)에서는 이것이 측정 가능한 구조적 이점이 됩니다. 즉, 더 적은 수의 칩에 70B 이상의 모델을 담을 수 있어 비용이 많이 드는 텐서 병렬화 (tensor parallelism)를 피할 수 있습니다. MI325X는 이러한 메모리 우위를 2026년 조달 주기까지 더욱 확장합니다. 저는 추론 중심의 워크로드에는 MI300X를 진심으로 고려할 것입니다. 하지만 최첨단 학습 (frontier training) 용도로는 — 아직은 — 고려하지 않을 것입니다.

Google TPU v5p 및 v5e: 하이퍼스케일러의 와일드카드

Google의 TPU v5p는 TPU v4 대비 칩당 ML FLOPs(Machine Learning Floating Point Operations)를 3배 달성했으며, Google Cloud는 특정 트랜스포머 (Transformer) 학습 워크로드에서 H100보다 2.8배 더 나은 가격 대비 성능 (Price-performance)을 제공한다고 주장합니다. 문제는 — 그리고 이는 매우 실질적인 문제입니다 — TPU가 JAX/XLA 생태계 내부에서 작동한다는 점입니다. PyTorch를 사용하는 기업들은 마이그레이션 비용 (Migration tax)을 지불해야 하며, 이는 비용 절감 효과를 인지하기도 전에 조용히 잠식할 수 있습니다.

Intel Gaudi 3: 가격 경쟁력을 갖춘 다크호스

MLPerf Inference v4.1에 제출된 Intel Gaudi 3 벤치마크 결과에 따르면, Llama 2 70B 모델에서 경쟁력 있는 처리량 (Throughput)을 보여주었으며, 권장 소비자 가격 (List price)은 유사한 Nvidia 구성 대비 약 30~~40% 낮았습니다. Gaudi 3 PCIe 카드의 가격은 약 10,000달러인 반면, H100 PCIe는 25,000~~30,000달러 수준입니다. 이는 순수 속도에서 승리할 필요가 없는 재무적 논리이며, Gaudi 3의 위치에 있는 칩에게는 정확히 올바른 프레임워크 (Framing)입니다.

맞춤형 실리콘 (Custom Silicon) — Amazon Trainium2, Microsoft Maia 2, Meta MTIA

최대 64개의 칩이 탑재된 UltraServer 구성으로 배포되는 Amazon Trainium2는 1,000억 개(100B+) 이상의 파라미터 모델 학습을 목표로 하며, AWS를 통해서만 독점적으로 제공됩니다. Microsoft Maia 2와 Meta MTIA도 동일한 논리를 따릅니다. 즉, 하이퍼스케일러 (Hyperscalers)들이 자체 실리콘을 구축함으로써 Nvidia의 유효 시장 (Addressable market)을 구조적으로 제한하려는 것입니다. 이들 중 누구도 벤치마크에서 반드시 승리할 필요는 없습니다. 그저 H100 구매를 중단하기만 하면 됩니다.

AMD는 메모리에서 승리합니다. Google은 자체 생태계 내부의 가격 대비 성능에서 승리합니다. Intel은 표시 가격 (Sticker price)에서 승리합니다. 이들 중 누구도 모든 곳에서 Nvidia를 이길 필요는 없습니다. 그저 당신에게 중요한 어느 지점에서만 이기면 됩니다.

새롭게 정의된 프레임워크

맞춤형 실리콘에서의 벤치마크 부활 효과 (The Benchmark Resurrection Effect)

하이퍼스케일러 칩들은 공개된 점수판에서 경쟁하지 않습니다. 대신 점수판에서 수요 자체를 제거함으로써 경쟁합니다. Amazon이 배포하는 모든 Trainium2 클러스터는 Nvidia가 결코 승리할 수 없는 벤치마크가 됩니다.

이 칩들을 액세스하고 사용하는 방법: 가격, 가용성 및 조달

재점화된 경쟁은 구매자들에게 실제로 평가할 수 있는 선택지가 생겼음을 의미합니다. 각 칩을 사용하는 방법과 도입을 결정하기 전에 테스트하는 방법을 소개합니다.

클라우드 액세스 (Cloud Access): AWS, GCP, Azure 및 Oracle의 인스턴스 유형 비교

Google Cloud TPU v5e 인스턴스(tpu-v5e-256)는 2024년 말에 GA(General Availability, 일반 가용성)에 도달했으며, 가격은 TPU 칩 시간당 약 $2.20입니다. 이는 유사한 플랫폼에서 H100의 온디맨드(on-demand) 가격인 GPU 시간당 약 $3.50–$4.00와 대조됩니다. AMD MI300X는 Microsoft Azure (ND MI300X v5 시리즈), Oracle Cloud Infrastructure, 그리고 Dell, HPE, Supermicro를 통한 직접적인 OEM 조달을 통해 사용할 수 있습니다. 다년 계약을 고려한다면 OEM 경로의 수치를 계산해 볼 가치가 있습니다.

기업 구매자를 위한 온프레미스 (On-Premises) 및 코로케이션 (Colocation) 옵션

Intel Gaudi 3 가속기는 Intel Developer Cloud 무료 티어 체험, AWS EC2 DL2q 인스턴스, 그리고 직접적인 OEM 구매를 통해 이용 가능합니다. 기업용 AI 인프라 (enterprise AI infrastructure)를 구축하는 팀의 경우, Dell 또는 Supermicro를 통해 MI300X 서버를 온프레미스로 도입하면 다년 관점에서 클라우드 마진(markup)을 피할 수 있습니다. 저는 단순히 이러한 비교를 수행하지 않았다는 이유만으로 팀들이 필요 이상으로 40~60% 더 많은 비용을 지불하는 것을 보았습니다. 동일한 원칙이 LLM 추론 (LLM inference) 배포 비용을 산출할 때도 적용됩니다.

가격 비교 표: H100 vs MI300X vs TPU v5 vs Gaudi 3

칩 (Chip)	메모리 (Memory)	클라우드 시간당 가격 (Cloud Price/Hour)	PCIe 리스트 가격 (PCIe List Price)	최적 용도 (Best For)
Nvidia H100	80GB HBM3	$3.50–$4.00	$25,000–$30,000	Frontier training, CUDA ecosystem
AMD MI300X	192GB HBM3	~$3.00	~$15,000	Large-model inference (70B+)
Google TPU v5e	16GB HBM	~$2.20	클라우드 전용 (Cloud-only)	JAX/XLA training, price-performance
Intel Gaudi 3	128GB HBM2e	변동 (Varies)	~$10,000	Cost-sensitive Llama inference