상호 보완 (The Complement)

요약

AI 추론 칩 스타트업들이 Nvidia의 대안이 되기보다 Nvidia GPU와 결합하여 성능을 극대화하는 상호 보완적 관계로 발전하고 있습니다. D-Matrix, Groq, Cerebras의 사례를 통해 단일 칩의 대체보다는 프리필과 디코드 단계를 나누어 처리하는 협업 모델이 주류가 되고 있음을 보여줍니다.

핵심 포인트

AI 추론 칩 시장은 Nvidia를 대체하기보다 Nvidia GPU의 기능을 보완하며 확장 중
D-Matrix는 Nvidia Blackwell과 결합하여 추론 효율성을 극대화하는 전략 채택
Groq은 Nvidia에 200억 달러 규모로 인수되어 Nvidia 제품 라인에 통합됨
Cerebras는 AWS와 파트너십을 통해 분리된 추론 스택 구축
단일 칩의 GPU 대체보다는 프리필과 디코드를 나누는 '페어링(Pairing)' 배포가 핵심

모든 AI 칩 스타트업은 스스로를 Nvidia의 도전자라고 부릅니다. D-Matrix는 Nvidia GPU와 결합합니다. Groq은 200억 달러에 Nvidia에 인수되었습니다. Cerebras는 AWS와 결합합니다. 추론(Inference) 칩 시장은 Nvidia의 지배력을 파편화시키고 있지 않습니다. 오히려 확장시키고 있습니다.

CNBC는 월요일에 "Nvidia의 도전자 D-Matrix, Microsoft의 지원 속에 칩 생산 시작"이라는 헤드라인을 보도했습니다. 이러한 프레임은 익숙합니다. 6개월마다 새로운 회사가 AI 추론(Inference) 칩 시장에 진입하며, 모든 헤드라인은 그들을 Nvidia의 도전자라고 부릅니다. D-Matrix가 가장 최신 사례입니다. 이 회사의 Corsair 칩은 Temasek, Qatar Investment Authority, 그리고 Microsoft의 M12 부문으로부터 4억 5천만 달러의 벤처 펀딩을 지원받아 이번 달 본격적인 생산에 들어갔습니다.

성능 주장에에는 주의 사항이 따릅니다. D-Matrix는 Corsair가 단독 GPU보다 10배 더 빠르고, 3배 더 저렴하며, 5배 더 에너지 효율적으로 추론(Inference)을 수행한다고 말합니다. 하지만 해당 벤치마크는 결합된 배포(Paired deployment)를 전제로 합니다. 즉, Corsair는 GPU가 비효율적으로 수행하는 순차적인 토큰 단위 생성 과정인 추론의 디코딩(Decode) 단계를 처리하고, Nvidia Blackwell GPU는 입력 프롬프트의 초기 처리 과정인 프리필(Prefill)을 처리하는 방식입니다. Gimlet Labs의 독립적인 테스트는 이러한 속도 향상을 확인했습니다: 24초였던 기준 응답 시간이 2초 미만으로 단축되었습니다. 두 칩이 모두 필요했습니다. Nvidia GPU를 제거하면 해당 벤치마크는 사라집니다.

Groq은 동일한 내러티브의 더 신뢰할 만한 버전이었습니다. Google의 TPU (Tensor Processing Unit) 설계를 도왔던 Jonathan Ross는 2016년에 Groq을 설립하였고, 별도의 GPU 없이도 그 어떤 GPU보다 빠르게 자기회귀 디코딩(Autoregressive decoding)을 실행할 수 있는 목적 맞춤형 LPU (Language Processing Unit)를 구축했습니다. 2025년 9월까지 Groq의 기업 가치는 69억 달러에 달했습니다. 이는 시장이 내놓은 Nvidia 아키텍처에 대한 가장 설득력 있는 단독 대안이었습니다.

2025년 크리스마스 이브, Nvidia는 Groq의 지적 재산(IP)을 200억 달러에 인수하고 Ross와 그의 핵심 엔지니어링 팀을 채용했습니다. GTC 2026에서 Groq 3 LPU가 Nvidia 제품으로 데뷔했습니다. 이는 Samsung의 4nm 공정으로 제조된 SRAM 기반 디코드 보조 프로세서(decode co-processor)로, Nvidia의 자체 GPU 및 CPU와 함께 Vera Rubin 플랫폼에 장착되었습니다. Nvidia의 도전자(challenger)로 가장 자주 불렸던 회사가 Nvidia의 제품 라인이 된 것입니다.

세계 최대 칩 제조사인 Cerebras는 제3의 길을 택했습니다. Nvidia와 결합하거나 Nvidia에 매각하는 대신, Cerebras는 AWS와 파트너십을 맺고 분리된 추론 스택(disaggregated inference stacks)을 구축했습니다. AWS Trainium 칩이 프리필(prefill)을 처리하고, Cerebras CS-3 웨이퍼 스케일 엔진(wafer-scale engines)이 디코드(decode)를 처리합니다. Cerebras는 Nvidia의 궤도를 벗어났습니다. 하지만 이는 동일한 아키텍처적 결론을 입증합니다. 단일 칩이 GPU를 대체할 수는 없습니다. 배포는 항상 한 쌍(pair)으로 이루어집니다.

추론 하드웨어 분야에서 Nvidia 도전자들의 성적표는 다음과 같습니다: Groq는 Nvidia에 200억 달러에 인수되었습니다. D-Matrix는 Nvidia Blackwell GPU와 결합하여 그 결과가 10배라고 주장합니다. Cerebras는 AWS Trainium과 결합하여 Nvidia를 피하면서도 결합 모델(pairing model)을 확인시켜 주었습니다.

"도전자(challenger)"라는 단어는 특정한 기능을 수행합니다. 이는 투자 유치(funding rounds)를 촉진합니다. D-Matrix는 2025년 11월, 20억 달러의 기업 가치로 2억 7,500만 달러 규모의 시리즈 C(Series C) 투자를 마감했습니다. "Nvidia 보완재(Nvidia complement)"라는 말은 동일한 투자 조건(term sheet)을 만들어내지 못했을 것입니다. "Nvidia 의존형 추론 보조 프로세서(Nvidia-dependent inference co-processor)"는 상장(S-1)을 위한 서사(narrative)가 될 수 없습니다. 도전자라는 프레임은 기술적 이야기와는 다른 무언가를 말하는 자본 시장의 이야기를 기술적 이야기에 접목시킨 것입니다.

자본 시장에서 경쟁(competition)이라 부르는 것을 하드웨어 아키텍처(architecture)에서는 구성(composition)이라 부릅니다. 현대의 추론(inference) 배포는 분산(disaggregated)되어 있습니다. 프리필(prefill)을 위한 칩 하나, 디코드(decode)를 위한 또 다른 칩 하나, 그리고 스토리지를 위한 세 번째 칩이 존재합니다. Nvidia는 GTC 2026에서 세 가지 제품을 동시에 출시했습니다: Groq LPX 추론 랙(inference rack), Vera CPU 랙, 그리고 STX 스토리지 참조 아키텍처(storage reference architecture)입니다. Nvidia의 전략은 모든 계층에서 앵커(anchor) 구성 요소를 공급하는 것입니다. Nvidia GPU와 결합하는 스타트업들은 Nvidia의 유효 시장(addressable market)을 확장하고 있습니다. Nvidia가 인수하는 기업들은 Nvidia의 제품 카탈로그를 확장합니다.

Nvidia 대안 기업들에 대한 투자 논거는 이 기업들이 Nvidia에 대한 의존도를 낮출 것이라는 가정에 기반합니다. 하지만 아키텍처는 다른 이야기를 들려줍니다. 기업 가치 20억 달러의 D-Matrix는 모든 랙에 Nvidia GPU가 필요합니다. 기업 가치 200억 달러의 Groq은 곧 Nvidia입니다. Cerebras는 Nvidia의 궤도가 아닌 AWS의 궤도에 있는데, 이는 독립이 아니라 또 다른 형태의 의존성입니다. 추론 칩 시장은 성장할 것입니다. 그 시장의 일부라도 Nvidia의 중력장에서 벗어날 수 있을지는 별개의 문제입니다. 지금까지 도전자는 상호 보완재(complements)가 되었고, 상호 보완재는 인수 대상(acquisitions)이 되었으며, 인수 대상은 제품 라인(product line)이 되었습니다.

원문은 The Synthesis에 게재되었습니다 — 지능의 전환을 내부에서 관찰하며.

AI 자동 생성 콘텐츠

원문 바로가기

상호 보완 (The Complement)

요약

핵심 포인트

댓글