최고의 AI 추론(Inference) 칩 기업은 Nvidia가 아니다: 추론 병목 현상(Inference Chokepoint)의 내부 실태

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽을 수 있습니다.

최고의 AI 추론(Inference) 칩 기업은 Nvidia가 아닐 수도 있습니다. 그리고 이 사실에 조용히 베팅하고 있는 사람들은 이번 주 리더보드에서 어떤 모델이 1위인지 논쟁하는 사람들이 아닙니다. 대중이 GPT, Claude, 또는 Gemini 중 무엇이 '최고'인지 토론하는 동안, 그보다 한 단계 아래, 즉 이 모델들을 실제로 구동하는 실리콘(Silicon) 계층에서는 훨씬 더 중대하고 다른 종류의 경쟁이 벌어지고 있습니다. 이것은 제품이 수익을 낼지 아니면 돈을 쏟아붓는 구덩이가 될지를 결정하는 AI 스택(Stack)의 부분이며, 현재 인공지능 분야에서 진짜 돈이 걸려 승패가 갈리는 지점입니다.

저는 지난 2년의 상당 기간을 데모에서는 아름답게 작동하지만 실제 운영(Production) 단계에서는 현금을 쏟아붓는 AI 기능들을 출시하는 팀들을 지켜보며 보냈습니다. 패턴은 거의 항상 동일합니다: 모델은 괜찮았습니다. 하지만 _그 모델을 실행하는 경제성(Economics)_이 문제였습니다. 이 글에서는 그 격차에 이름을 붙였으며, 앞으로 일관되게 사용할 것입니다: 바로 **추론 병목 현상 (Inference Chokepoint)**입니다.

새로 정의된 개념: 추론 병목 현상 (Inference Chokepoint)

**추론 병목 현상 (Inference Chokepoint)**이란, 하루 수십억 건의 요청 규모에서 학습된 모델을 실행할 때 발생하는 비용, 지연 시간(Latency), 그리고 에너지 소모가 모델의 품질이 아닌 '누가 가치를 포착하느냐'를 결정하게 되는 AI 경제의 구조적 병목 구간을 의미합니다. 학습(Training)은 일회성 자본 이벤트입니다. 추론(Inference)은 영구적인 비용입니다. 이 병목 현상을 통과하는 가장 저렴하고 빠른 경로를 소유하는 자가 산업 전체의 마진(Margin)을 소유하게 됩니다.

왜 학습(Training)이 아닌 추론(Inference)이 진짜 AI 격전지인가

AI의 어렵고 비용이 많이 드는 부분이 모델을 학습(Training)시키는 것이라는 지속적인 오해가 있습니다. 학습은 비용이 많이 듭니다. Sam Altman은 학습 실행(Training run) 비용이 1억 달러를 훨씬 상회한다고 공개적으로 언급한 바 있습니다. 하지만 학습은 모델 세대당 한 번 발생합니다. 반면 추론(Inference)은 사용자가 프롬프트(Prompt)를 보낼 때마다 매번 발생합니다.

산술적으로 계산해 보십시오. 수천만 명의 일일 활성 사용자(DAU)에게 서비스를 제공하는 소비자용 AI 제품은 매일, 무기한으로 하루에 수십억 번의 추론을 수행합니다. Nvidia가 투자자 행사에서 밝힌 바에 따르면, 이 회사는 장기적으로 추론이 AI 컴퓨팅 수요의 지배적인 비중을 차지할 것으로 예상합니다. 이것이 바로 이 글의 전체 논지를 한 문장으로 압축한 것입니다: 반복되는 비용이 승리합니다.

구조적 차이를 더 면밀히 살펴보십시오. 연구소에서 프런티어 모델(Frontier model)을 학습시킬 때는 고정된 자본을 고정된 시간 범위—클러스터링된 GPU를 사용하는 몇 주 또는 몇 달, 알려진 전기 요금, 알려진 엔지니어링 비용—에 투입합니다. 해당 실행이 끝나면 비용 발생도 멈춥니다. 추론은 완전히 반대되는 형태를 가집니다. 추론은 채택(Adoption) 규모에 따라 선형적으로, 때로는 초선형적(Super-linearly)으로 확장됩니다. 제품이 성공할수록 더 많은 비용을 지불해야 합니다. 성공이 곧 형벌이 되는 것입니다. 이것이 수많은 유망한 AI 기능들이 조용히 제한되거나, 유료화(Paywall)되거나, 폐기되는 이유입니다. 성능이 좋아질수록 국고(Treasury)를 더 빨리 소진하기 때문입니다. Andreessen Horowitz가 기록한 AI 컴퓨팅의 비용 구조는 이러한 비대칭성을 명확히 보여주며, 이는 업계에서 가장 과소평가된 단일 역학입니다.

모델을 학습시키는 것은 한 번 지불하는 자본 지출(Capital expense)입니다. 추론은 영원히 지불해야 하는 운영 비용(Operating expense)입니다. '영원한' 비용을 저렴하게 만드는 기업은 벤치마크에서 승리하는 것이 아니라, 비즈니스 모델에서 승리합니다.

이러한 재정의가 중요한 이유는 여러분이 주목해야 할 기업이 달라지기 때문입니다. 만약 여러분이 모델의 품질이 수렴하고 있다고 믿는다면—그리고 LMArena와 같은 공개 리더보드의 독립적인 평가에 따라 프론티어 모델(Frontier models) 간의 격차가 입증 가능할 정도로 좁혀졌다면—차별화 요소는 더 이상 모델이 아니라 모델을 서비스하는 비용이 됩니다. 이것이 바로 추론 병목 현상(Inference Chokepoint)이 작동하는 방식입니다. 두 모델이 모든 의미 있는 벤치마크에서 아주 근소한 차이로 점수를 기록할 때, 합리적인 구매자는 '어느 것이 더 똑똑한가'를 묻는 것을 멈추고 '나의 지연 시간(Latency) 목표치에서 토큰당 비용이 어느 쪽이 더 저렴한가'를 묻기 시작합니다. 결정권이 연구실에서 재무 스프레드시트로 이동하는 것입니다.

이것이 실제 자동화 예산에 어떻게 흘러 들어가는지 고민하는 운영자들을 위해, 저희는 twarx.com/blog/ai-unit-economics의 분석에서 단위 경제성(Unit-economics) 측면에 대해 더 자세히 작성하였으며, twarx.com/blog/token-cost-margins에서는 왜 토큰 비용이 거의 모든 AI SaaS 마진의 상류(Upstream)에 위치하는지에 대해 작성했습니다. 두 글을 관통하는 공통된 주제는 모델이 제약 사항인 경우는 드물며, 요청당 경제성(Per-request economics)이 제약 사항이라는 점입니다.

AI 칩 공급망: 아키텍처 지도

AI inference chip supply chain architecture diagram from fabrication equipment to deployed accelerators

AI 칩 공급망: 노광 장비(Lithography equipment), 파운드리(Foundries), 칩 설계자(Chip designers), 그리고 배포(Deployment).

왜 단 하나의 '최고의 AI 추론 칩 기업'이라는 답변이 깔끔하게 나오지 않는지 이해하려면, 이 체인을 보아야 합니다. 여기 위에서 아래로 이어지는 아키텍처가 있습니다:

[ 노광 장비 (Lithography Equipment) ] ASML (EUV 독점)
|
v
[ 파운드리 / 제조 (Foundry / Fabrication) ] TSMC, Samsung Foundry
|
v
[ 칩 설계자 (Chip Designers) ] Nvidia, AMD, Broadcom, Groq, Cerebras, SambaNova
|
v
[ 하이퍼스케일러 실리콘 (Hyperscaler Silicon) ] Google TPU, AWS Inferentia & Trainium, Microsoft Maia
|
v
[ 배포된 추론 (Deployed Inference) ] 귀하의 AI 제품 마진

이것이 무엇을 드러내는지 주목하십시오. 병목 지점(Chokepoints)들이 층층이 쌓여 있습니다. ASML은 사실상 최첨단 칩 제조에 필요한 극자외선(EUV) 노광 장비의 유일한 공급업체입니다. TSMC는 전 세계 첨단 AI 실리콘의 압도적인 대다수를 제조합니다. 따라서 Nvidia의 지배력조차 자신이 통제하지 못하는 공급업체들에 의존하고 있습니다. 이것이 단일 기업에 대한 해답이 순진한 이유이며, 제가 왜 '병목 지점(Chokepoint)'을 특정 로고가 아닌 하나의 시스템으로 계속해서 다루는지에 대한 이유입니다.

지정학적 차원은 이 공급망을 더욱 취약하게 만듭니다. ASML의 EUV 장비 한 대에는 수십만 개의 부품이 포함되어 있으며, 인류가 제조하는 가장 복잡한 물체 중 하나입니다. 반도체 수출 통제에 관한 CSIS 분석에서 기록된 바와 같이, 이 장비들에 대한 수출 통제는 국가 정책의 핵심 수단이 되었습니다. 대만에 첨단 제조 공정이 집중되어 있다는 점은 어떤 칩 설계자도 스스로 헤지(Hedge)할 수 없는 꼬리 위험(Tail risk)을 초래합니다. 사람들이 어떤 추론(Inference) 칩이 승리할지 물을 때, 그들은 대개 아키텍처(Architecture)를 생각합니다. 더 정직한 답변은 공급망에는 여러 개의 목구멍이 있으며, 가속기(Accelerator)에 누구의 로고가 박혀 있든 간에 가장 좁은 목구멍을 통제하는 자가 가장 많은 가치를 추출한다는 것입니다.

Nvidia: 추론 병목 지점(Inference Chokepoint) 중심의 기존 강자

기존 강자에게 공정할 필요가 있습니다. Nvidia의 지배력은 마케팅의 우연이 아닙니다. Nvidia의 해자(Moat)는 개발자들을 종속시키는, 거의 20년 동안 구축해 온 소프트웨어 생태계인 CUDA입니다. Nvidia의 자체 투자자 커뮤니케이션에 따르면, 데이터 센터(Data-center) 매출은 이 글의 주제인 바로 그 추론(Inference) 및 학습(Training) 수요에 힘입어 비즈니스의 절대다수를 차지할 정도로 성장했습니다.

CUDA는 전체 스택에서 가장 오해받고 있는 자산이기 때문에 깊이 있게 살펴볼 가치가 있습니다. 그것은 칩의 기능이 아닙니다. 그것은 라이브러리(libraries), 커널(kernels), 툴링(tooling), 문서화(documentation), 그리고 이미 이를 학습한 전 세계적인 엔지니어 기반의 집합체입니다. CUDA에서 모델을 학습시킨 모든 박사 과정 학생, CUDA를 위해 가장 먼저 최적화된 모든 프레임워크, CUDA에 대해 작성된 모든 Stack Overflow 답변—이 모든 것들은 Nvidia에게만 이득을 주는 매몰 비용(sunk cost)입니다. The Verge 및 기타 매체들의 독립적인 보도는 CUDA를 실제 제품으로, 실리콘(silicon)을 전달 수단으로 반복해서 규정해 왔습니다. 그러한 규정은 정확합니다. 더 빠른 트랜지스터만으로는 생태계를 몰아낼 수 없습니다.

하지만 지배력은 도전자들이 공략할 수 있는 바로 그 빈틈을 만들어냅니다. 단일 벤더가 공급과 가격을 통제할 때, 규모를 갖춘 모든 고객—모든 하이퍼스케일러(hyperscaler), 모든 프런티어 연구소(frontier lab)—는 대안을 구축하거나 구매할 강력한 동기를 갖게 됩니다. 이는 추측이 아닙니다. Google이 자체 TPU를 설계하고, AWS가 Inferentia와 Trainium을 설계하여 Nvidia로부터 모든 것을 구매하는 대신 대안을 만드는 사실에서 관찰할 수 있습니다. 대안을 구축할 능력이 가장 뛰어난 고객들이 바로 Nvidia에 가장 많은 비용을 지불하는 고객들입니다. 이는 소프트웨어 해자(software moat)가 아무리 강력하더라도, 어떤 독점 기업에게든 구조적으로 불안정한 위치입니다.

Nvidia가 승리한 것은 칩이 빨랐기 때문이 아닙니다. 아무도 자신의 전체 소프트웨어 스택을 다시 작성하고 싶어 하지 않았기 때문에 승리한 것입니다. 도전자들은 모두 이 점을 알고 있습니다. 그렇기에 가장 영리한 도전자들은 단순히 실리콘이 아니라 CUDA를 공격하고 있습니다.

추론 전문 기업들: 실제로 병목 현상을 공격하고 있는 곳은 누구인가

여기서부터 정말 흥미로운 지점이 시작되며, 저는 검증된 사실과 저의 개인적인 분석을 명확히 구분하여 설명하겠습니다. 이 기업들은 훈련 (Training) 분야에서 Nvidia를 능가하려고 시도하는 것이 아닙니다. 이들은 AI 추론 칩 기업 경쟁의 추론 (Inference) 측면을 위해 목적에 맞게 설계되었습니다. 각 기업은 지연 시간 (Latency), 메모리 대역폭 (Memory Bandwidth), 또는 트랜스포머 특화 (Transformer Specialization)와 같은 좁은 물리적 제약 조건을 하나씩 선택했으며, 범용적인 전쟁을 치르기보다는 그 제약을 극복하는 것을 중심으로 아키텍처를 구축했습니다.

Groq와 결정론적 LPU

Groq는 스스로 언어 처리 장치 (LPU, Language Processing Unit)라고 부르는 것을 구축합니다. 이는 저지연 추론 (Low-latency inference)을 위해 특별히 설계된 결정론적 (Deterministic) 소프트웨어 스케줄링 아키텍처입니다. Groq는 자체 플랫폼 및 벤치마크 페이지에 기록된 바와 같이, 오픈 모델에서 매우 높은 토큰 처리량 (Token-throughput) 속도를 공개적으로 입증했습니다. 분석: Groq의 베팅은 음성 에이전트, 대화형 코딩, 실시간 도구 사용과 같은 많은 실제 애플리케이션에서, 피크 훈련 처리량 (Peak training throughput)보다 예측 가능한 저지연 (Low latency)이 더 중요하다는 점입니다. 이는 정확히 병목 현상 (Chokepoint)을 공략하는 전략입니다. 결정론적 실행 모델은 Groq가 기존 GPU 서빙 (Serving)을 괴롭히는 가변적인 꼬리 지연 시간 (Tail latencies) 대신 일관된 지연 시간을 보장할 수 있음을 의미합니다. 사용자가 응답을 기다려야 하는 모든 제품에서, 이러한 일관성은 비용을 지불할 가치가 있는 기능이 됩니다.

Cerebras와 웨이퍼 스케일 컴퓨팅 (Wafer-Scale Compute)

Cerebras는 역발상적인 경로를 택했습니다. 웨이퍼를 여러 개의 작은 칩으로 자르는 대신, 하나의 거대한 웨이퍼 스케일 엔진 (Wafer-scale engine)을 구축합니다. 이 회사는 자사의 공식 사이트에서 접근 방식과 공개 추론 (Inference) 서비스를 상세히 설명하고 있으며, 상장 계획을 추진함에 따라 규제 당국 제출 서류 또한 공개 기록의 일부로 남아 있습니다. 분석: 웨이퍼 스케일 (Wafer-scale)은 고위험 고수익 방식입니다. 수율 (Yield) 리스크와 열 관리 (Thermal) 과제를 하나의 거대한 다이 (Die)에 집중시키지만, 추론을 제약하는 메모리 대역폭 (Memory-bandwidth) 한계에 대한 직접적인 공격이기도 합니다. 거대한 모델을 온칩 메모리 (On-chip memory)에 상주시키고, GPU 에너지 예산의 대부분을 차지하는 오프칩 (Off-chip) 데이터 이동을 방지함으로써, Cerebras는 와트당 성능 (Performance-per-watt) 계산에서 가장 가혹하게 처벌받는 바로 그 병목 현상 (Bottleneck)을 공략합니다.

SambaNova, Etched, 그리고 전문화된 물결 (Specialist Wave)

SambaNova는 기업 배포를 목표로 하는 풀스택 추론 (Full-stack inference) 시스템을 마케팅하고 있으며, 자세한 내용은 회사 사이트에서 확인할 수 있습니다. Etched와 같은 신규 진입자들은 트랜스포머 특화 실리콘 (Transformer-specialized silicon)을 제안해 왔습니다. 이는 트랜스포머 아키텍처 (Transformer architecture)를 하드웨어 자체에 하드와이어 (Hard-wire)하여, 오늘날 가장 중요한 워크로드 (Workload)에 대해 유연성을 희생하는 대신 가공할 만한 효율성을 얻는 방식입니다. 공통된 흐름은—이는 확정된 시장 결과에 대한 주장이 아니라 저의 프레임워크입니다—각 기업이 CUDA와 정면으로 싸우기보다는, 병목 현상 (Chokepoint)의 좁고 방어 가능한 영역을 점유하려 한다는 점입니다. 트랜스포머 특화 실리콘의 리스크는 명백합니다. 만약 지배적인 아키텍처가 변화한다면, 해당 하드웨어에 대한 베팅은 가치가 급격히 떨어질 것입니다. 하지만 트랜스포머가 주력 모델로 남아 있는 수년간의 기간 동안, 효율성 측면의 논거는 실질적입니다.