NVIDIA가 Groq을 인수하고, OpenAI는 Cerebras를 선택했다 — 2026년 상반기에 '추론은 GPU 한 길뿐'이라는 공식이
요약
2025년 말부터 2026년 초에 걸쳐 NVIDIA가 Groq을 인수하고, OpenAI가 Cerebras와 대규모 계약을 체결하는 두 건의 거대 거래가 발생했습니다. 이 사건들은 AI 추론 시장에서 'GPU만이 유일한 해답'이라는 기존의 패러다임을 근본적으로 흔들고 있습니다. 특히 Groq의 LPU는 H100 대비 추론 속도에서 압도적인 효율성을 보여주며, OpenAI는 Cerebras를 통해 대규모 전용 캐파시티를 확보하며 시장 주도권 다툼이 심화되고 있음을 시사합니다.
핵심 포인트
- AI 컴퓨팅 지출의 약 2/3가 추론(Inference) 측으로 이동할 것으로 예상되어, 운영 비용 관리가 중요해지고 있습니다.
- Groq의 LPU는 H100 대비 추론 속도에서 최대 3배에 달하는 효율성을 보여주며, 데이터센터 운영 비용 절감 효과를 극대화합니다.
- NVIDIA가 Groq을 인수하는 것은 기술적 우위 확보와 동시에 규제 리스크(FTC 등)를 회피하기 위한 '아퀴하이어' 성격이 강합니다.
- OpenAI는 Cerebras와의 대규모 계약을 통해 추론 전용의 막대한 캐파시티(750 MW 이상)를 확보하며, 시장 다변화를 추진하고 있습니다.
- 추론 성능에서 메모리 대역폭과 SRAM 용량 같은 물리적 사양이 중요해지면서, 'GPU 중심'이라는 기존의 산업 인식이 깨지고 있습니다.
2025년 12월부터 2026년 초에 걸쳐, 기묘할 정도로 일치하는 200억 달러 규모의 거래 2건이 발생했다. NVIDIA가 Groq을 인수하고, OpenAI가 Cerebras와 계약을 체결한 것이다. 별개의 거래로 보이지만, 두 건 모두 AI 추론(Inference) 시장의 동일한 지각 변동을 반영하고 있다.
2025년 12월, NVIDIA는 Groq의 자산을 약 200억 달러에 인수한다고 발표했다 (CNBC). 이는 Mellanox의 70억 달러를 넘어 NVIDIA 역사상 최대 규모의 거래가 되었다.
거의 동시에, OpenAI는 **Cerebras와 200억 달러 이상의 Master Relationship Agreement (MRA)**를 체결했다 (2025년 말 체결, 2026년 공표). 750 메가와트(MW) 분량의 추론 캐파시티(Capacity)를 확보했으며, 2030년까지 2 기가와트(GW)까지 확장 가능하다 (Cerebras IPO 보도). OpenAI는 워런트(Warrant)를 통해 Cerebras 주식의 최대 10%를 취득할 권리도 포함하고 있다. AWS Bedrock과의 Cerebras 통합은 2026년 3월에 별도로 발표되었다. 나는 반도체 팹(Fab) 주변에서 일했기에, 2018-2020년의 7nm 경쟁 당시와 유사한 '시장이 조용히 전환되는 순간'을 본 기억이 있다. 이번에는 그보다 더 빠르다.
이 글에서는 두 거래의 구조와, '전용 실리콘(ASIC) vs GPU'라는 대립 구도가 2026년에 깨진 현실을 물리적 측면과 경제적 측면 모두에서 다룬다.
전제로서 추론 시장의 규모를 확인하자.
AI 컴퓨팅(Compute) 지출의 약 2/3가 2026년 중에 추론 측으로 기울 것이라고 여러 업계 보고서(Morgan Stanley, SemiAnalysis 등의 추정치, 수치는 보고서마다 60-70% 범위)에서 말하고 있다. 학습(Training)은 사전에 '무거운 투자를 몰아서 하는' 모델이지만, 추론은 모델이 계속 사용되는 한 지속되는 운영 비용이기 때문에 규모가 쌓이기 쉽다.
여기에 NVIDIA가 곤란해할 구조가 있다.
NVIDIA H100 / B100 시리즈는 학습에서 지배적이지만, 추론 전용으로 최적화되어 있지는 않다. FP16/BF16 연산과 HBM 대역폭을 학습 효율 쪽으로 할당했기 때문에, 긴 문장을 출력하며 1 토큰씩 생성하는 추론 루프에서는 메모리 대역폭과 SRAM 용량의 제약에 걸리게 된다. 실측치로 보면, Llama 3 70B를 H100에서 구동했을 때 표준 배포(Standard deployment)에서 60-100 t/s (tokens/second), 최적화를 최대한 적용했을 때 200 t/s 정도라는 것이 업계의 공통된 인식이다 (Groq vs H100 벤치마크).
이를 Groq의 LPU는 동일한 Llama 3 70B에서 280-300 t/s로 찍어낸다. Artificial Analysis의 독립 벤치마크에서 284 t/s가 공개되어 있다 (Groq 공식 블로그). 약 3배 빠르다 (단, H100 측은 배치 사이즈(Batch size)나 양자화(Quantization), 텐서 병렬(Tensor Parallel) 구성에 따라 실측치 폭이 크기 때문에, 3배는 조건부 수치이다).
3배의 차이를 2/3의 시장에 적용하면 어떤 일이 벌어질까. 추론에서 3배 효율적이라면, 데이터 센터의 전기료와 토지 비용이 대략 1/3로 줄어든다. 이는 'NVIDIA 한 길뿐'이라는 전제를 흔들기에 충분한 숫자다.
NVIDIA의 관점에서 보면 다음과 같다.
추론 전용 ASIC를 사내에서 처음부터 만드는 데는 2~3년이 걸린다. 그 사이에 Groq이 대형 고객을 확보하기 시작하면, 추론 시장의 일부는 NVIDIA로부터 이탈한다. 따라서
Groq의 기술을 내재화하는 선택을 한다.
라이선스 계약 형태를 취한 것은 규제 리스크를 피하기 위해서다. Motley Fool은 이를 '아퀴하이어(Acqui-hire)'라고 표현하고 있다 (Motley Fool) — 회사는 남지만, CEO인 Jonathan Ross와 President인 Sunny Madra를 비롯한 주요 멤버들은 NVIDIA에 합류한다. 경쟁자는 사실상 사라진다.
CNBC의 다른 기사에서는 이 거래가 '경쟁이라는 픽션(Fiction)을 유지하는 구조'라고 분석하고 있다 (CNBC). FTC(미국 연방거래위원회)를 의식한 형식이다.
Groq이 NVIDIA 측으로 넘어가는 타이밍에 OpenAI가 움직였다. Cerebras와 200억 달러 규모의 MRA를 맺고, 750 MW 분량의 추론 캐파시티를 확보했다 (Cerebras 공식 파트너십).
숫자의 의미를 정리하자. 750 MW는 중규모 발전소 1기 분량이다. Cerebras CS-3 1대가 약 23 kW를 소비한다고 공개되어 있으므로, 대략 32,000대 규모의 시스템이 상정되어 있다. 이를 2030년까지 2 GW (약 87,000대)까지 확장하는 계약이다.
OpenAI가 NVIDIA로부터 완전히 멀어진 것은 아니다. NVIDIA 또한 별도로 OpenAI에 200억 달러를 투자하고 있다. 하지만, 추론 전용 대량 캐파시티(Capacity)는 Cerebras 측으로 모은다는 의사결정이 있었다.
이 이유는 단순히 "Cerebras가 빠르다"로는 설명할 수 없다. Cerebras WSE-3는 **온칩 SRAM 44 GB / 21 PB/s의 메모리 대역폭 (Memory Bandwidth)**을 가지며, 이는 H100의 HBM3 (3.35 TB/s)보다 약 6,300배 높다 (Cerebras 공식 칩 사양). 그것은 사실이지만, 44 GB라는 용량은 70B 이상의 모델에서는 외부 메모리로의 분할이 필수적이 된다. 완전한 승리 공식은 아니다.
실제로 OpenAI가 보고 있었던 구조는 AWS Bedrock 측의 조합을 통해 읽을 수 있다. Cerebras의 S-1 (IPO 신청서)에는 AWS Trainium으로 prefill을 수행하고, Cerebras CS-3로 decode를 수행한다는 분리형 (disaggregated) 아키텍처가 적혀 있다 (Futurum 해설).
prefill (프롬프트를 병렬로 처리하는 단계)은 계산 밀도가 높기 때문에 Trainium과 같은 행렬 연산용 칩이 효율적이며, decode (토큰을 1개씩 생성하는 단계)는 메모리 대역폭이 지배적이므로 Cerebras의 SRAM-only 구조가 효과적이다. AWS Elastic Fabric Adapter로 이 두 단계를 연결하면, 내부 테스트에서 GPU 클러스터 대비 압도적으로 빠른 추론을 달성했다고 보고되었다 (MLQ.ai). 구체적인 ms 단위의 숫자는 AWS/Cerebras로부터 공식적으로 공개되지 않았으므로, 발표된 벤치마크의 범위를 통해 파악하는 것이 안전하다.
즉, OpenAI는 "Cerebras 단독으로 전부 다 한다"가 아니라, 워크로드를 분할하여 최적의 칩에 할당하는 분리형 (disaggregated) 전략을 선택했다. 이는 AI 추론 아키텍처가 "GPU로 전부"에서 "역할별 칩의 조합"으로 넘어가는 분수령이다.
두 딜(Deal) 이후의 시장에서 NVIDIA가 얼마나 남을지를 냉정하게 보면, 70-80%는 여전히 NVIDIA라고 업계 분석가들은 보고 있다. CUDA는 약 20년간 쌓아온 툴체인 (Toolchain) 자산으로, 전환 비용은 엔지니어 공수 기준으로 수년 단위에 달한다.
이는 구체적으로 다음과 같이 작용한다.
- 학습 측면에서 PyTorch / JAX / TensorRT의 튜닝이 가능한 것은 CUDA뿐이다.
- 추론 최적화 라이브러리인 vLLM, TensorRT-LLM 등도 CUDA를 전제로 한다.
- 커스텀 커널 (FlashAttention 등)은 CUDA 상에서 먼저 최적화된다.
- 데이터 센터의 시설 운영 (냉각, 전원, 배선) 또한 NVIDIA GPU를 상정하여 설계되어 왔다.
신규 데이터 센터를 Cerebras 전용으로 만드는 것은 가능하지만, 기존의 H100 / B100이 배치된 시설에 Cerebras를 사후에 추가하는 것은 설계상 거의 불가능하다. OpenAI가 Cerebras를 위해 1 GW급의 신규 캐파시티를 확보하고 있는 것도 이러한 물리적 제약에서 기인한다.
내 주변에서도 로컬에서 Qwen2.5-14B를 8 GB VRAM에 담아 구동할 때 "CUDA에서만 llama.cpp의 GPU offload가 안정적이다"라고 절감하는 장면을 여러 번 목격했다. 개인 규모에서도 CUDA 생태계의 두터움은 효과가 있다. 데이터 센터 규모에서는 차원이 다른 효과를 발휘한다.
따라서 두 딜이 일어난 후에도, 학습 측의 지배권은 NVIDIA에게 남는다. 움직인 것은 추론 측의 수십 퍼센트뿐이다.
Groq가 NVIDIA 측으로 가고, Cerebras가 OpenAI 및 AWS 측으로 굳어지면서, 독립계 추론 전용 칩은 수를 줄였다. 남아 있는 것은 대략 다음과 같다.
- SambaNova Systems: Dataflow 아키텍처인 SN40L, 기업용 추론. Cerebras와 유사한 wafer-scale 방식은 아니지만 SRAM을 중시 -
Tenstorrent (Jim Keller): RISC-V 기반의 Wormhole / Blackhole, 오픈 로드맵 -
Etched: Transformer 전용 ASIC인 「Sohu」, 극단적인 전문화 -
Rain AI, Lightmatter, Mythic: 아날로그 / 광 컴퓨팅 (Optical Computing), 상용화는 아직 -
AMD MI350 계열: GPU 로드맵으로 NVIDIA에 대항, CUDA 호환은 아니지만 ROCm을 연마 중
이 중 SambaNova와 Tenstorrent는 자금 조달이 계속되고 있으나 시장 점유율은 작다. Etched는 Transformer 이외를 버리는 극단적인 도박을 하고 있으며, Llama 3 70B를 서버 1대에서 50만 t/s로 구현한다고 공언하고 있으나 양산 시기에 대한 확신은 아직 희박하다.
NVIDIA가 Groq을 흡수한 것의 함의는 **"전용 ASIC으로 NVIDIA에 도전하는 노선은 자금 조달이 더욱 어려워질 것"**이라는 점이다. 벤처 투자자 입장에서는 "Groq조차 팔렸는데, 내 투자처도 같은 말로를 걷게 될 것인가?"라는 생각을 하게 된다. 실제로 Fortune의 기사는 NVIDIA-Groq 이후의 AI 칩 스타트업을 **"sitting pretty (유리한 위치에 있는 쪽)"와 "disrupt(파괴적 혁신)를 목표로 남는 쪽"**으로 나누어 분석하고 있다 (Fortune).
나처럼 8 GB VRAM으로 Local LLM을 돌리는 입장에서는 두 거래가 직접적인 영향은 거의 없다. Cerebras CS-3도 Groq LPU도 개인 용도로는 사용할 수 없다 (각각 수백만 달러 단위의 서버급).
하지만, "추론 아키텍처의 다양화"를 이해해 둘 가치는 있다.
이유는 두 가지가 있다.
Local LLM 추론에서 "GPU만 있는" 세계관에 갇혀 있으면, 새로운 최적화 아이디어를 놓치게 된다. Groq의 결정론적 실행 (deterministic execution), Cerebras의 SRAM 우선 설계 (SRAM-first design), AWS의 분산 구성 (disaggregated architecture)은 로컬 측에도 응용할 수 있는 아이디어를 포함하고 있다. 예: vLLM의 paged attention, Flash Attention의 SRAM 활용, KV cache의 분산 등, 이미 "메모리 대역폭 중심의 최적화"가 주류가 되었다. 이는 Groq/Cerebras의 발상과 맥을 같이 한다.
NVIDIA의 API 가격 전략이 변할 가능성이 있다. 데이터센터 추론에서 Cerebras가 일정 점유율을 차지하게 되면, NVIDIA는 추론 전용 ASIC을 통해 가격을 낮출 동기를 갖게 된다. 이는 Local LLM의 대체 수단인 Cloud API의 가격에 영향을 미친다. "결국 로컬에서 돌리는 것이 더 싸다"라는 전제가 2026년 하반기~2027년에 바뀔 수도 있다.
Local LLM 커뮤니티에서 "컨텍스트 길이를 늘려도 정확도가 올라가지 않는다", "KV cache를 SRAM에 가깝게 만드는 것이 더 효과적이다"와 같은 논의가 늘어나는 이유는, 독립적으로 업계의 물리적 한계에 부딪히고 있기 때문이다. 데이터센터 측의 Groq/Cerebras의 진화와 로컬 측의 최적화는 같은 물리 법칙에 서로 다른 스케일로 도전하고 있는 것이다.
NVIDIA-Groq, OpenAI-Cerebras 이야기와 병행하여 Google TPU v7, AWS Trainium2, Microsoft Maia, Meta MTIA도 움직이고 있다. 이는 이전 기사에서 다루었던 "하이퍼스케일러 자체 제작 칩"의 세계선이다.
두 거래가 일어난 후의 구조는 다음과 같다.
| 플레이어 | 학습 | 추론 |
|---|---|---|
| OpenAI | NVIDIA GPU | Cerebras + NVIDIA + Trainium (disaggregated) |
| TPU + GPU | TPU | |
| AWS | Trainium + GPU | Trainium + Cerebras (Bedrock) |
| Microsoft | NVIDIA GPU + Maia | Maia + GPU |
| Meta | NVIDIA GPU + MTIA | MTIA + GPU |
OpenAI와 AWS가 Cerebras를 도입한 것을 제외하면, 하이퍼스케일러(Hyperscaler) 각사는 자체 칩을 통한 내재화(In-house)를 추진하는 방향에 있다. NVIDIA에 대한 의존도를 낮추고 싶어 하는 점은 공통적이지만, 직접 보유하는 칩은 '학습과 추론 모두에 일정 부분 사용할 수 있는 범용성 중심'의 설계가 많다.
Cerebras와 같은 극단적인 전문화 (wafer-scale 방식의 SRAM-first 설계)는 사내 팀에서 만들기 어렵다. 그렇기에 OpenAI와 AWS는 구매하는 대신 계약을 통해 확보하는 선택을 했다. 이것 또한 200억 달러 규모 딜(deal)의 배경에 있다.
이 기사를 쓰기 전, 나는 "Cerebras와 Groq은 NVIDIA를 죽이지 못했다"라는 테제(Thesis)로 구성을 짰었다. 하지만 글을 쓰면서 깨달은 것은, 양자 모두 '죽이는 것'까지는 가지 않았다는 사실이다. Groq은 매각되었고, Cerebras는 OpenAI에 통합되었다. NVIDIA를 쓰러뜨리는 게임이 아니게 된 것이다.
대신 일어난 것은, AI 추론 시장이 "GPU 단일 선택지"에서 "역할별 칩의 조합"으로 조용히 이동했다는 점이다. 물리적 요소(SRAM 용량, 메모리 대역폭, wafer 수율)와 생태계(CUDA, 툴체인(Toolchain), 데이터센터 설계) 사이의 밀고 당기기 결과로서, 두 딜(deal)이 동시에 발생했다.
나는 팹(Fab) 주변의 업무를 계속하면서, 이 변화를 "반도체 역사에서의 유사한 순간"과 비교하며 생각하고 있다. 2010년대 Intel x86의 지배력이 스마트폰용 ARM에 의해 잠식되었을 때의 초기 5년과 비슷하다. 완전한 교체는 일어나지 않겠지만, 가장 수익성이 높은 시장의 일부가 확실히 움직이고 있다.
2027년 이후, 추론 전용 실리콘(Silicon)이 데이터센터에서 어느 정도를 차지할지는 Cerebras의 양산 능력과 AWS/OpenAI 이외의 고객을 확보할 수 있는지에 달려 있다. 베팅할 곳이 보였다는 것이 2026년의 도달점이다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기