가장 중요한 AI 기업은 OpenAI가 아닙니다. 어쩌면 이 눈에 띄지 않는 기업일지도 모릅니다

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 20일

가장 중요한 AI 기업은 OpenAI가 아닙니다. 어쩌면 이 눈에 띄지 않는 기업일지도 모릅니다 — 모든 이들이 어떤 모델이 가장 똑똑한지를 두고 논쟁하는 동안, 가장 중요할 수도 있는 기업은 모델을 훈련(training)하고 있지 않습니다. 그들은 모든 AI 모델이 비밀리에 실행되는 추론용 실리콘(inference silicon)을 구축하고 있습니다.

2026년 6월 20일, Inc.com은 가장 전략적으로 중요한 AI 비즈니스는 OpenAI가 아니라, 다른 것에 집중하는 AI 칩 기업이라고 주장하는 특집 기사를 게시했습니다. 이것이 지금 중요한 이유는 OpenAI, Anthropic, 그리고 모든 기업의 RAG(검색 증강 생성, Retrieval-Augmented Generation) 배포에 있어 훈련(training)이 아닌 추론(inference)이 실제 비용 중심점이 되고 있기 때문입니다.

이 글을 다 읽을 때쯤이면, 왜 인프라 계층(infrastructure layer)이 지속 가능한 해자(moat)인지, 여러분의 워크로드에 대해 이를 어떻게 평가해야 하는지, 그리고 다음에 무엇을 주목해야 하는지 정확히 알게 될 것입니다.

AI data center server racks with custom inference silicon powering frontier language models

물리적 형태의 보이지 않는 스택 우위: 사용자가 절대 볼 수 없는 모든 AI 앱 아래의 추론 하드웨어. 출처

조어된 프레임워크(Coined Framework)

보이지 않는 스택 우위 (The Invisible Stack Advantage) — AI 모델 아래의 계산 기질(computational substrate)을 소유한 기업들이 보유한 전략적 해자. 소비자에게는 보이지 않지만, 그 위에서 경주하는 모든 AI 기업에게는 절대적으로 필수적입니다.

이 보고서는 AI 열풍 속의 구조적 사각지대를 지적합니다. 가치는 가장 눈에 띄는 모델 브랜드가 아니라, 그 밑단에서 컴퓨팅 (compute), 에너지 (energy), 그리고 전환 비용 (switching costs)을 통제하는 이에게 귀속됩니다. 모델들의 품질이 상향 평준화될 때, 기질 (substrate)만이 유일하고 지속 가능한 차별화 요소가 됩니다.

발표 내용: 이 논의를 시작한 Inc.com 보고서

OpenAI가 헤드라인을 장식합니다. 하지만 OpenAI는 AI 혁명이 달리고 있는 토지를 소유하고 있지 않습니다. 그리고 그 토지를 소유한 기업은 바로 눈앞에 숨어 있었습니다. 이것이 바로 Connor Jewiss의 Inc.com 보고서의 핵심 논지입니다.

Inc.com의 원문 주장 — 정확한 사실과 출판 맥락

보고서의 핵심 문장은 의도적으로 절제되어 있습니다. '모두가 어떤 모델이 최고인지 논쟁하는 동안, 한 AI 칩 기업은 다른 것에 집중하고 있다.' 이 단 한 문장이 AI 경쟁의 구도를 완전히 재편합니다. 대부분의 사람들이 지켜보는 경쟁 — 벤치마크 점수, 데모 데이, 모델 출시일 — 은 표면일 뿐입니다. 그 밑에는 실제로 누가 이익을 얻을지를 결정하는 경쟁, 즉 실리콘 (silicon)과 데이터 센터 (data-center) 경제학이 자리 잡고 있습니다.

이 글은 한 AI 칩 기업이 OpenAI보다 잠재적으로 더 전략적으로 중요할 수 있다고 지목하는데, 그 이유는 정확히 이 기업이 다른 축에서 경쟁하기 때문입니다. 지능 (intelligence)이 아니라, 지능을 대규모로 실행하는 데 드는 비용, 에너지, 그리고 신뢰성 측면에서 경쟁합니다.

이 이야기가 지금 터져 나온 이유: 무시해서는 안 될 타이밍 신호

이 타이밍은 우연이 아닙니다. Nvidia의 GTC 기조연설은 단순한 모델의 성능 자랑보다는 데이터 센터 구축과 추론 (inference) 효율성에 점점 더 많은 시간을 할애해 왔습니다. 이는 전장이 하위 스택 (downstack)으로 이동했다는 신호입니다. 이것은 홍보 (PR) 차원의 선택이 아닙니다. 바로 그곳에 수익에 대한 압박이 존재하기 때문입니다.

동시에, CNBC와 같은 매체들의 보도는 프런티어 AI 모델들이 범용화 (commoditizing)되고 있다는 경고를 울리고 있습니다. 즉, GPT급 역량이 해자 (moat)가 아닌 하나의 기능 (feature)이 되고 있다는 것입니다. 만약 모델들이 범용화된다면, 인프라 (infrastructure)만이 지속 가능한 마진 (margin)을 숨길 수 있는 유일한 장소가 됩니다. 저는 지난 20년 동안 소프트웨어 스택 (software stack)의 모든 계층에서 정확히 이러한 역학 관계가 전개되는 것을 목격해 왔습니다. 결과는 항상 똑같았습니다.

모든 모델이 충분히 훌륭해지면, 아무도 지능에 대해 프리미엄을 지불하지 않습니다. 사람들은 그것을 전달하는 가장 저렴하고 신뢰할 수 있는 방법에 비용을 지불합니다. 그것은 모델의 문제가 아니라 하드웨어 (hardware)의 문제입니다.

공식 출처, 명시된 기업 및 검증된 세부 사항

확인된 사실은 다음과 같습니다: (1) Inc.com이 해당 특집 기사를 발행했습니다; (2) 이 기사는 모델 연구소 (model lab)가 아닌 AI 칩 기업을 '가장 중요한' 후보로 지목했습니다; (3) 프레임워크는 명시적으로 추론 및 인프라 우선 (inference-and-infrastructure-first)입니다. 그 외의 모든 것 — 구체적인 기업 가치 (valuation), 정확한 고객 명단 — 은 보고서 위에 덧입혀진 분석으로 취급되어야 하며, 저는 전체 과정에서 이를 명확하게 표시할 것입니다.

~10:1
2026년까지 예상되는 추론 대비 학습 컴퓨팅 수요 비율
[Sequoia Capital, 2024](https://www.sequoiacap.com/)
...

이 기업은 무엇이며 실제로 무엇을 하는가?

쉬운 말로 설명하자면: 이 회사는 AI 모델을 구동하는 특화된 칩을 설계하고 판매하는 기업입니다. 여러분이 대화하는 챗봇 (chatbot)이 아니라, 그 아래에서 웅웅거리며 돌아가는 엔진입니다. OpenAI를 티켓에 적힌 항공사 브랜드라고 생각하십시오. 칩 회사는 제트 엔진 제조업체입니다. 여러분은 엔진을 결코 볼 수 없습니다. 하지만 항공사는 엔진 없이는 날 수 없습니다.

기업 프로필: 설립, 미션 및 핵심 제품 라인

이 범주의 AI 칩 기업들은 공통된 미션 프로필을 공유합니다. 즉, 일회성이고 자본 집약적인 학습 (training) 행위보다는, 실제 사용자들을 위해 학습된 모델을 실행하는 행위인 **추론 (inference)**에 특화되어 최적화된 실리콘을 구축하는 것입니다. 이들의 제품 라인은 가속기 (accelerators), AI 워크로드를 해당 가속기에 매핑하는 소프트웨어 컴파일러 (software compilers), 그리고 개발자들이 모든 것을 다시 작성하지 않고도 배포할 수 있게 해주는 에코시스템 툴링 (ecosystem tooling)에 집중되어 있습니다. 마지막 부분이 바로 대부분의 도전적인 벤더들이 비틀거리는 지점입니다. 칩은 쉬운 부분입니다.

보이지 않는 스택의 우위 — 칩 및 인프라 기업이 장기적으로 승리하는 이유

대부분의 사람들이 오해하는 지점은 이것입니다. 그들은 AI의 승자가 가장 똑똑한 모델을 가진 기업이 될 것이라고 생각합니다. 모델 리더십은 빌려온 것이지 소유한 것이 아닙니다. 그것은 몇 달간 지속될 뿐입니다. 반면 인프라 리더십은 전환 비용 (switching costs) 때문에 복리로 쌓입니다.

데이터 센터가 특정 칩 에코시스템 — 즉, 해당 칩의 컴파일러, 메모리 레이아웃, 운영 툴링 — 을 중심으로 설계되고 나면, 경쟁사로 이전하는 데 수억 달러의 비용과 수개월의 엔지니어링 시간이 소요될 수 있습니다. 저는 그러한 마이그레이션 사후 분석 (migration post-mortems) 회의에 참석해 본 적이 있습니다. 아무도 자발적으로 두 번째 마이그레이션을 계획하지 않습니다. 그 마찰(friction)이 바로 해자 (moat)입니다.

정립된 프레임워크

실전에서의 보이지 않는 스택의 우위

모델 품질은 매 분기마다 떨어지게 되는 리더보드와 같습니다. 인프라 락인 (infrastructure lock-in)은 고객이 몇 년 동안 벗어날 수 없는 계약입니다. 하나는 단거리 경주이고, 다른 하나는 톨게이트입니다.

이 기술이 Nvidia, AMD, Intel이 제공하는 것과 어떻게 다른가

역사적 평행 이론은 TSMC입니다. 대부분의 소비자가 들어본 적 없는 이 회사는 Apple, Nvidia, AMD를 위해 동시에 칩을 제조합니다. TSMC는 최고의 브랜드를 가졌기 때문에 승리하는 것이 아니라, 최고의 브랜드를 가진 모든 이들에게 없어서는 안 될 존재가 됨으로써 승리합니다. 추론 최적화 칩 기업은 그보다 한 단계 위에서 동일한 위치를 목표로 합니다. 즉, 현재의 벤치마크 사이클에서 어떤 모델이 승리하든 상관없이, 모든 AI 배포에 있어 없어서는 안 될 존재가 되는 것입니다.

특화된 추론 (Inference) 실리콘은 원시 학습 FLOPS (Floating Point Operations Per Second) 측면에서 Nvidia를 이길 필요가 없습니다. 대신, 기업의 월간 청구서에 실제로 나타나는 지표인, 대규모 생산 규모에서의 토큰당 비용 (cost-per-token) 측면에서 승리해야 합니다.

Diagram comparing training compute versus inference compute demand growth in AI deployments

추론 (Inference)이 진정한 보상인 이유: 학습 (Training)은 주기적인 자본 투입 이벤트인 반면, 생산 워크로드 (production workloads)는 사용자 수에 따라 확장됩니다. 출처

전체 역량 분석: 이 기업의 기술이 실제로 가능하게 하는 것

학습 (Training) vs. 추론 (Inference): 이 구분이 실제 시장의 승자를 결정하는 이유

프런티어 모델 (Frontier model)을 학습시키는 것은 (세대당) 단 한 번의 메가 프로젝트입니다. 반면 추론 (Inference)은 사용자가 프롬프트 (Prompt)를 보낼 때마다 발생하며, 이는 하루에 수백만 번, 영원히 지속됩니다. Sequoia Capital의 AI 인프라 분석에 따르면, 2026년까지 추론 수요는 학습 컴퓨팅 규모를 약 10:1의 비율로 압도할 것으로 예측됩니다. 이 비율이 핵심입니다. 가장 저렴한 추론을 보유하는 자가 AI 경제의 반복적 수익 (recurring revenue)을 차지하게 됩니다.

AI 요청이 보이지 않는 스택 (Invisible Stack)을 통해 실제로 흐르는 방식

  1

    **사용자 프롬프트가 앱에 도달함**

요청이 API 또는 채팅 UI를 통해 들어옵니다. 지연 시간 (Latency) 예산이 카운트되기 시작하며, 사용자는 약 3초 이상 걸리면 이탈합니다.

↓

  2
...

라우팅 (Routing) 로직이 결정합니다: 단순 질의 → 저렴한 추론 칩; 복잡한 추론 → 프런티어 모델 (Frontier model).
이 라우팅 단계가 비용의 승패가 갈리는 지점입니다.

↓

  3
...

벡터 데이터베이스 (Vector database)에서 관련 컨텍스트 (Context)를 가져옵니다. 검색 중심 (Retrieval-heavy) 워크로드야말로 대안 실리콘이 30~60%의 비용 절감을 보여주는 영역입니다.

↓

  4
...

모델이 특화된 실리콘 (Specialized silicon)에서 실행됩니다. 토큰당 비용 (Cost-per-token)과 토큰당 와트 (Watts-per-token)가 여기서 결정됩니다. 이는 사용자에게는 보이지 않지만, 비즈니스에는 결정적입니다.

↓

  5
...

출력이 다시 스트리밍됩니다. 비용 최적화 및 향후 라우팅 결정을 위해 토큰 사용량과 지연 시간이 기록됩니다.

그 칩 회사는 4단계, 즉 모든 사용자 상호작용에 따라 영원히 선형적으로 확장되는 유일한 단계를 통제합니다.

하드웨어 아키텍처 및 경쟁사 대비 성능 벤치마크 (Performance Benchmarks)

추론 최적화(Inference-optimized) 칩은 Nvidia H100을 정의하는 가공할 만한 학습 처리량(training throughput)보다 메모리 대역폭(memory bandwidth), 저정밀도 연산 (low-precision math, INT8/FP8), 그리고 에너지 효율성을 강조합니다. 관련 벤치마크는 'GPT급 모델을 얼마나 빨리 학습할 수 있는가'가 아닙니다. '실제 운영 배치 크기(production batch sizes)에서 와트당 초당 토큰 수가 얼마나 되는가'입니다. 이는 매우 다른 답을 가진 서로 다른 질문이며, 피치 덱(pitch decks)에서 이 둘을 혼동하는 벤더들은 제가 실제 운영 배포(production deployment)를 맡기고 싶지 않은 곳들입니다.

소프트웨어 스택, SDK 및 생태계 호환성 — OpenAI, Anthropic, 그리고 그 너머

채택 여부는 호환성에 달려 있습니다. 기업용 AI 팀은 PyTorch, JAX, CUDA 대안 컴파일러, 그리고 LangGraph 및 AutoGen과 같은 오케스트레이션(orchestration) 프레임워크를 지원할 때만 실리콘을 교체할 것입니다. 이것이 진정한 성패를 가르는 기준이며, Nvidia의 CUDA 락인(lock-in)이 그토록 오랫동안 유지된 이유입니다. 소프트웨어 해자(software moat)는 하드웨어 해자보다 더 강력하게 달라붙습니다. 이것이 실제로 어떻게 전개되는지에 대한 더 심도 있는 분석은 우리의 오케스트레이션(orchestration) 가이드를 참조하십시오.

전력 제한적인 AI 시대에서 경쟁 우위로서의 에너지 효율성

단일 대규모 AI 배포(deployment)는 미국 평균 가정 약 1,000가구가 사용하는 것만큼의 전력을 소비할 수 있습니다. 전력망(Grids)은 과부하 상태입니다. 전력은 이제 이론적인 문제가 아니라 실질적인 병목 현상(bottleneck)입니다. 에너지 효율적인 칩은 더 이상 있으면 좋은 기능(nice-to-have)이 아닙니다. 이는 비용 및 규제 측면의 필수 사항(imperative)입니다. International Energy Agency는 데이터 센터의 전력 수요를 전력망의 구조적 우려 사항으로 지목했습니다. AWS와 Google Cloud를 포함한 주요 클라우드 제공업체들은 Nvidia에 대한 의존도와 데이터 센터 전력 비용을 모두 줄이기 위해 구체적으로 대안적인 AI 실리콘(silicon)을 검증하기 시작했습니다. 이것은 실험이 아닙니다. 대규모 헤징(hedging)입니다.

다음 AI 병목 현상은 지능이 아닙니다. 바로 전기입니다. 그리고 와트(watt)당 가장 많은 토큰(token)을 제공하는 기업이 조용히 다른 모든 기업이 의존하게 되는 기업이 될 것입니다.