칩 제조사들, Nvidia의 독점으로 억눌렸던 기술적 성능 경쟁을 재개하다

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽을 수 있습니다.

최종 업데이트: 2026년 6월 20일

칩 제조사들, Nvidia의 독점으로 억눌렸던 기술적 성능 경쟁을 재개하다 — 이 헤드라인은 더 이상 과장이 아닙니다. Nvidia의 GPU 독점은 단순히 최고의 칩을 보유했기 때문이 아니라, 누구나 벤치마크 (Benchmark)를 수행하려 하는 유일한 칩이었기 때문입니다. 그 시대는 2025년에 끝났으며, Nvidia의 지배력이 조용히 잠재웠던 기술적 성능 전쟁이 다시 돌아왔습니다. 이번에는 기관의 자금, 지정학적 긴급성, 그리고 실제 워크로드 (Workload)가 뒷받침되고 있습니다. 단 한 가지만 기억해야 한다면, 지구상에서 가장 까다로운 두 가지 AI 작업인 프런티어 모델 학습 (Frontier model training) 실행이 이미 프로덕션 환경에서 비-Nvidia 실리콘 (Non-Nvidia silicon) 상에서 수행되고 있다는 사실입니다.

이 글의 나머지 부분 동안 제가 옹호할 주장은 다음과 같습니다: 워크로드를 먼저 분류하고 그 특정 형태에 승리하는 실리콘을 선택하기만 한다면, 오늘날 실제 LLM 추론 (Inference) 워크로드를 H100에서 몇 달이 아닌 며칠 만에 옮길 수 있으며, 토큰당 비용 (Cost-per-token)을 30~60% 절감할 수 있습니다.

Nvidia의 GPU 독점은 단순히 최고의 칩을 보유했기 때문이 아닙니다. 그것은 누구나 벤치마크 (Benchmark)를 수행하려 하는 유일한 칩이었기 때문입니다.

AI chip benchmark comparison dashboard showing Nvidia AMD Google Intel performance scores 2025

벤치마크 르네상스 (Benchmark Renaissance) 시각화: 여러 벤더의 독립적인 MLPerf 제출 결과가 5년 만에 처음으로 Nvidia의 15% 이내로 수렴하고 있습니다. 출처

명명된 프레임워크 (Coined Framework)

벤치마크 르네상스 (The Benchmark Renaissance) — Nvidia가 유도한 지표 단일 문화 (Metric monoculture)의 5년 기간 이후, 이제 하이퍼스케일러 (Hyperscaler) 이탈 경제에 의해 가속화된 독립적이고 다중 벤더인 AI 하드웨어 성능 경쟁의 부활

이는 오직 CUDA 수치만이 중요했던 단일 벤더(single-vendor) 세상에서, 하이퍼스케일러 (Hyperscaler), 클라우드 임차인 (cloud renters), 그리고 오픈 소스 (open-source) 팀들이 다시금 일대일 비교 (apples-to-apples comparisons)를 요구하는 다중 벤더 (multi-vendor) 세상으로의 구조적 전환을 의미합니다. 이 전환이 해결하는 시스템적 문제는 바로 신뢰할 만한 경쟁의 부재로부터 전적으로 발생했던 가격 결정력 (pricing power)입니다.

왜 칩 제조사들은 2026년에 벤치마크 경쟁을 재개했는가?

Bloomberg 보고서: 주요 사실, 날짜 및 출처의 신뢰성

어떤 칩 제조사들이 언급되었으며 어떤 주장이 제기되고 있는가?

재개된 경쟁에는 불과 2년 전만 해도 경쟁 수치 발표를 사실상 중단했던 명단이 포함되어 있습니다: AMD의 Instinct MI300X, Intel Gaudi 3, Google TPU v5, Amazon Trainium 2, 그리고 니치 전문 기업인 Cerebras와 Groq입니다. 이들은 모두 본질적으로 동일한 주장을 하고 있으며, 이를 뒷받침하기 위해 2026년용으로 새로 발표된 AI 가속기 (AI accelerator) 벤치마크를 제시하고 있습니다: 즉, 최소한 하나 이상의 실제 워크로드 (workload)에서 현재 달러당 성능 (performance-per-dollar) 측면에서 Nvidia와 대등하거나 이를 능가한다는 것입니다. 이들은 구매자들이 이미 포기했던 GPU 대안들이었으나, 바로 그 점이 변화한 핵심입니다.

이 이야기가 지금 터져 나온 이유 — 타이밍의 신호

이 타이밍은 우연이 아닙니다. 이 보고서는 Meta가 Google TPU 인프라에 수십억 달러를 지출하기 위한 논의를 진행 중임을 공개적으로 확인한 지 약 90일 이내에 발표되었습니다. 이는 The Information에서 처음 보도되었고 Bloomberg의 Meta–Google TPU 논의 보도를 통해 확인되었으며, 하이퍼스케일러 이탈 (hyperscaler defection)의 가장 명확한 신호입니다. 최대 규모의 GPU 구매자들이 타사의 실리콘 (silicon)을 임차하기 시작할 때, 벤치마크 전쟁은 더 이상 학술적인 논쟁에 머물지 않습니다. 그것은 조달 정책 (procurement policy)이 됩니다.

벤치마킹을 억압하는 독점 기업은 실력으로 이기는 것이 아니라, 점수판이 없는 상태를 이용해 이기는 것입니다. 이제 점수판이 다시 작동하기 시작했습니다.

'기술적 성능 경쟁 (Nerdy Performance Tussle)'이란 무엇이며 왜 중요한가?

Nvidia의 지배 이전, AI 칩 벤치마킹의 역사

2020년 이전, AI 하드웨어 벤더들은 업계의 중립적인 벤치마크 컨소시엄인 MLPerf에서 공개적이고 격렬하게 경쟁했습니다. Google, Intel, Graphcore, Habana 등이 결과를 제출했던 이유는 시장이 투명한 비교에 보상을 주었기 때문입니다. 구매자들은 실제로 수치를 보고 제품을 선택했습니다.

2020년에서 2024년 사이 Nvidia가 어떻게 경쟁적 벤치마킹을 억눌렀는가

그 후 CUDA 락인 (lock-in) 현상으로 인해 대안적인 벤치마크들은 상업적 의미를 잃게 되었습니다. 2020년에서 2024년 사이, Nvidia 이외의 벤더들이 제출한 MLPerf 결과물은 40% 이상 감소했습니다. 이는 경쟁사들의 성능이 떨어졌기 때문이 아니라, 고객이 자신의 기존 소프트웨어 스택 (existing software stacks)을 해당 칩에서 실행할 수 없다면 벤치마크에서 승리하는 것이 아무런 의미가 없었기 때문입니다. 2023년 정점 당시, Nvidia의 H100은 트랜스포머 (transformer) 학습에서 가장 가까운 경쟁사보다 달러당 성능 (performance-per-dollar)이 약 3.9배 더 뛰어났습니다. 이제 그 격차는 빠르게 좁혀지고 있으며, MLPerf 점수가 이를 증명하고 있습니다.

40% 이상
2020–2024년 사이 Nvidia 이외의 MLPerf 제출물 감소
[MLCommons, 2024](https://mlcommons.org/benchmarks/training/)
...

벤치마크 르네상스: 2026년의 새로운 경쟁 양상

여기서 명명한 '벤치마크 르네상스 (Benchmark Renaissance)'는 2024년 이후 AMD MI300X, Google TPU v5e, AWS Trainium 2가 제출하는 신뢰할 수 있는 제3자 MLPerf, SPEC AI 및 클라우드 네이티브 제출물들의 물결을 의미합니다. 과거의 벤치마크 전쟁과 다른 점은 그 이면에 있는 자본입니다. 이제 수십억 달러 규모의 하이퍼스케일러 (hyperscaler) 계약이 단순히 마케팅 슬라이드가 아닌 실제 운영 환경에서 수치를 검증하고 있습니다. 이는 매우 유의미한 차이인데, 저는 실제 워크로드 (workload)가 투입되는 순간 수많은 벤치마크 승리들이 증발해 버리는 것을 수없이 목격해 왔기 때문입니다.

제 개인적인 테스트에서 얻은 주의 사항 하나를 말씀드리자면, 작년에 MI300X와 H100 노드에서 70B 추론 (inference) 작업을 처음 실행했을 때, 저는 ROCm의 동등성 (parity)이 전부일 것이라고 예상했습니다. 하지만 그렇지 않았습니다. 로우 커널 (raw kernels)은 괜찮았습니다. 놀라웠던 점은 주변 툴링 (tooling) (프로파일러 (profilers), NCCL에 상응하는 집합 통신 (collectives), 저희 팀이 CUDA를 위해 조용히 하드코딩해 두었던 배포 스크립트 등)이 디버깅 시간에 얼마나 많은 비용을 발생시키느냐 하는 것이었습니다. 툴링의 격차가 실리콘 (silicon)의 격차보다 더 중요했습니다. 그 경험은 제가 현재 팀들에게 조언하는 방식을 바꾸어 놓았습니다. 단순히 칩뿐만 아니라 마이그레이션 스캐폴딩 (migration scaffolding, 이관을 위한 기반 구조)을 위한 예산을 책정하라고 말입니다. 이는 사양서 (spec sheets)가 절대 경고해주지 않는 부분이며, '며칠이면 끝날' 마이그레이션이 가끔 2주로 불어나는 가장 큰 이유입니다.

Timeline showing Nvidia benchmark monoculture from 2020 to 2024 ending with 2025 multi-vendor competition

5년간의 지표 단일 문화 (metric monoculture)와 그 붕괴 — 벤치마크 르네상스 (Benchmark Renaissance)는 학술적 호기심이 아니라 하이퍼스케일러 (hyperscaler)의 이탈 경제학에 의해 주도됩니다. 출처

AI 칩 논쟁에서 가장 간과되는 사실은 다음과 같습니다: Nvidia는 매출액 (dollars)은 늘어나면서도 시장 점유율 (percentage)은 잃을 수 있다는 점입니다. IDC의 Worldwide AI Accelerator Tracker에 따르면 전체 시장 규모 자체가 전년 대비(YoY) 185% 성장했기 때문입니다. Nvidia가 80% 이상의 점유율을 유지하고 있음에도 불구하고, 도전 기업들은 절대적인 매출액 측면에서 승리하고 있습니다.

2026년 토큰당 비용 측면에서 Nvidia를 이길 AI 칩은 무엇인가?

AMD MI300X: 대규모 환경에서 Nvidia를 대체할 수 있는 첫 번째 신뢰할 만한 대안

AMD MI300X는 192GB의 HBM3 메모리를 탑재하고 있으며, 이는 H100의 80GB보다 2.4배 더 큰 용량입니다. 메모리 대역폭(Memory bandwidth)과 용량이 병목 현상(Bottleneck)이 되는 70B(700억 개) 이상의 파라미터를 가진 대규모 컨텍스트 LLM 추론(Inference)의 경우, 이 단일 사양만으로도 계산 방식이 완전히 달라집니다. 2025년 3월에 발표된 독립적인 Anyscale 벤치마크(Benchmarks)는 MI300X가 대규모 배치 추론(Large-batch inference)에서 H100과 대등하거나 이를 능가함을 확인했습니다. 이는 별도의 조건 없이 대규모로 배포할 수 있는 최초의 비(Non)-Nvidia 칩입니다. 상태: 양산 준비 완료(Production-ready).

Google TPU v5 및 v5e: 하이퍼스케일러 실리콘의 외부 공개

Google의 2024년 인프라 공개 자료에 따르면, TPU v5e는 내부 Gemini 워크로드에서 H100 대비 달러당 추론 처리량(Inference throughput-per-dollar)을 2배 달성했습니다. 이를 흥미롭게 만드는 전략적 변화는 Google이 이제 이 용량을 외부에 판매한다는 점이며, Meta와의 논의가 그 증거입니다. 상태: Google Cloud를 통해 양산 준비 완료(Production-ready).

Amazon Trainium 2 및 Inferentia 3: AWS의 폐쇄 루프(Closed-loop) 전략

65,000개의 칩으로 구성된 AWS Trainium 2 클러스터는 이미 40억 달러 규모의 AWS 파트너십 하에 Anthropic의 Claude 모델 학습을 지원하고 있습니다. 이는 파일럿(Pilot) 단계가 아닌 명시된 실제 양산 사례(Production case study)입니다. Anthropic이 자사의 플래그십 모델을 비(Non)-Nvidia 실리콘에서 학습시키고 있다는 점은, 제 견해로는 이번 벤치마크 르네상스(Benchmark Renaissance) 전체에서 가장 강력한 단일 데이터 포인트입니다. 상태: 학습용 양산 단계(Production for training).

Intel Gaudi 3: 오픈 소프트웨어 스택을 갖춘 다크호스

Intel Gaudi 3는 독점적인 SDK 종속성(lock-in) 없이 PyTorch 및 HuggingFace와의 완전한 호환성을 제공하며, 이는 팀들에게 Nvidia에서 벗어나라고 제안할 때 제기되는 가장 큰 반대 사항을 해결합니다. 만약 귀하의 팀이 HuggingFace Optimum을 기반으로 구축한다면, 마이그레이션(migration) 노력은 몇 달에서 며칠로 단축됩니다. 상태: 양산 준비 완료(production-ready), 생태계 성숙 중.

Cerebras WSE-3 및 Groq LPU: 지표를 재정의하는 니치 스페셜리스트(Niche Specialists)

Groq의 LPU는 Llama 3 70B 추론(inference)에서 초당 500개 이상의 토큰을 달성하며, 해당 특정 작업에서 H100 대비 약 10배의 처리량(throughput)을 보여줍니다. 다만, 모델을 학습(training)할 수는 없으며 모든 형태의 추론 워크로드(inference workload)를 처리할 수는 없습니다. Cerebras WSE-3는 웨이퍼 스케일 통합(wafer-scale integration)을 사용하여 멀티 GPU 통신 오버헤드(communication overhead)를 축소합니다. 이 칩들이 모든 면에서 Nvidia를 이기는 것은 아닙니다. 이들은 하나의 지표를 완전히 점유함으로써 '승리'의 의미를 재정의합니다. 상태: 추론용 양산 단계(production for inference); 학습용 아님.

Anthropic은 40억 달러 규모의 계약에 따라 65,000개의 AWS Trainium 2 칩에서 Claude를 학습시킵니다. 이탈은 다가오는 것이 아니라, 이미 실행되었습니다.

2026년 멀티 벤더 칩 환경에서 워크로드가 라우팅되는 방식

  1

    **워크로드 분류 (Workload Classification)**

입력: 모델 크기, 학습(training) 대 추론(inference), 지연 시간 SLA(latency SLA), 배치 프로필(batch profile). 출력: 칩 적격성을 결정하는 워크로드 카테고리.

↓

  2
...

작업이 CUDA 네이티브 라이브러리(FlashAttention 2, NCCL)에 의존합니까? 그렇다면 Nvidia 또는 TPU입니다. 만약 HuggingFace Optimum을 통해 하드웨어 불가지론적(hardware-agnostic)이라면, 모든 벤더가 적격합니다.

↓

  3
...

70B 이상의 컨텍스트 추론은 MI300X(192GB)로 갑니다. 500+ tok/s의 저지연(low-latency)은 Groq LPU로 갑니다. 파운데이션 학습(Foundation training)은 Nvidia 또는 TPU v5로 갑니다.

↓

  4
...

약정 사용(committed-use) 클라우드 가격을 비교합니다. 약정 시 칩당 시간당 약 $1.10인 TPU v5e와 칩당 시간당 $3.67인 H100의 비교가 최종 라우팅 결정을 이끕니다.

이러한 라우팅 로직은 왜 단일 칩이 모든 분야에서 승리할 수 없는지를 보여줍니다. 브랜드 충성도가 아닌 워크로드의 형태 (workload shape)가 최적의 실리콘 (silicon)을 결정합니다.

이러한 GPU 대안들에 어떻게 접근할 수 있는가 — 가격 및 조달 방법

클라우드 접근: 현재 어떤 제공업체가 어떤 칩을 제공하는가

가장 빠른 방법은 최소 주문 수량 (MOQ)과 리드 타임 (lead time)이 없는 클라우드 대여입니다. Microsoft Azure는 ND MI300X v5 시리즈를 통해 AMD MI300X를 8-GPU 노드 기준 시간당 약 $32–$36에 제공합니다 (2025년 2분기 기준). Google Cloud는 TPU v5e를 온디맨드 (on-demand)로 TPU 칩 시간당 $2.19에 제공하거나, 1년 약정 계약 시 칩 시간당 약 $1.10에 제공합니다. 이는 칩 시간당 $3.67인 H100 A3 인스턴스보다 저렴하며, 본격적인 추론 (inference) 볼륨을 실행할 때는 무시하기 어려운 차이를 만듭니다.