왜 우리는 이렇게 오랫동안 GPU에 갇혀 있는가?

몇 달마다 한 번씩 GPU 대안이 마침내 출시되었는지 확인하는 사람이 아마 저뿐만은 아닐 것입니다. 주로 구독 서비스 몇 개를 취소하기 위해서 말이죠.

그것이 물리적으로 가능하다는 점이나 사람들이 시도해 왔다는 점을 의심하는 사람은 아무도 없습니다. 진짜 질문은 왜 실제로 일어나지 않았는가 하는 것이며, 그 답은 기술적인 문제가 아니라 경제적이고 구조적인 문제입니다.

GPU는 유일하게 이상적인 것이 아니라, 유일하게 범용적인 것입니다

LLM (Large Language Model) 워크로드는 밀집된 matmul (행렬 곱셈), 높은 병렬성, 메모리 대역폭 제한적 (memory-bandwidth-bound) 연산입니다. GPU는 이를 잘 처리하지만, 이를 위해 특별히 만들어진 것은 아닙니다. 트랜스포머 (Transformer) 추론을 위해 목적에 맞게 제작된 ASIC (주문형 반도체)는 전력 대비 성능 (perf-per-watt)과 비용 대비 성능 (perf-per-dollar) 면에서 GPU를 능가해야 하며, 좁은 영역에서는 이미 그러고 있습니다:

Groq의 LPU는 자신의 아키텍처에 맞는 모델의 단일 스트림 추론 처리량 (single-stream inference throughput) 측면에서 GPU를 능가합니다.
Cerebras의 WSE는 전체 모델을 하나의 웨이퍼 (wafer)에 올려 상호 연결 오버헤드 (interconnect overhead)를 줄입니다.
Google TPU는 수년 동안 프로덕션 워크로드를 실행해 왔으며, 현재 GCP (Google Cloud Platform)를 통해 외부로 판매되고 있습니다.

따라서 특화된 하드웨어는 때때로 프로덕션 환경에서도 승리할 수 있습니다. 진짜 질문은 무언가가 GPU를 이길 수 있느냐가 아니라, 왜 이 중 그 어느 것도 Nvidia의 점유율을 깎아먹지 못했는가 하는 것입니다.

1. 자본의 장벽

커스텀 실리콘 (Custom silicon)은 수억 달러의 NRE (비반복 엔지니어링) 비용, 수년간의 할당 대기열이 있는 TSMC의 최첨단 노드에 대한 접근 권한, 그리고 설계가 상업적으로 실행 가능해지기 전까지 여러 번의 반복 작업이 필요합니다. 이는 경쟁 분야를 하이퍼스케일러 (hyperscaler)의 재무제표나 수십억 달러 단위의 벤처 자금으로 제한합니다.

장벽은 칩뿐만이 아닙니다. 주변 툴링 (tooling)과 프로덕션 파이프라인인 CUDA는 성숙하기까지 10년의 자본과 엔지니어링이 소요되었으며, 이를 따라잡는다는 것은 부품을 교체하는 것이 아니라 그 모든 것을 재구축하는 것을 의미합니다. 이는 실리콘 자체에 더해지는 두 번째 자본 소모처입니다.

고정 기능 실리콘 (fixed-function silicon)에는 특유의 타이밍 리스크도 존재합니다. 만약 기반이 되는 모델 아키텍처가 크게 변화한다면, 오늘날의 트랜스포머 (transformer) 변형 모델에 맞춰 테이프 아웃 (taped out)된 ASIC은 쓸모없는 짐이 될 수 있는 반면, GPU는 소프트웨어 업데이트만으로 다음에 무엇이 오든 어느 정도 준수하게 실행할 수 있습니다. 이 리스크는 현재의 하이프 사이클 (hype cycle)이 시작된 이후로는 실제로 발생하지 않았습니다. 분야는 트랜스포머를 유지해 왔으며, MoE 라우팅 (MoE routing)이나 새로운 어텐션 (attention) 변형과 같은 변화들은 GPU와 기존 ASIC 모두가 따라잡을 수 있을 만큼 점진적이었습니다. 하지만 이는 모든 ASIC 투자 결정에 가격 책정되어 있는 상시적인 리스크 프리미엄 (risk premium)이며, 이는 자본 투입의 문턱을 더욱 높입니다.

2. 인센티브 및 생존 문제

Nvidia의 자체 로드맵 (Hopper, Blackwell, Rubin)은 "전환할 가치가 있는" 기준을 계속해서 높이고 있습니다. 하이퍼스케일러 칩 (TPU, Trainium, Inferentia)은 개방형 시장에서 경쟁하기보다는 주로 내부 비용 구조를 최적화하는 데 집중합니다. 그리고 독립적인 하드웨어 스타트업들은 잔혹한 생존 확률에 직면해 있습니다. Graphcore는 2024년에 운영을 종료했습니다. Cerebras와 Groq는 생존해 있지만, "생존하는 것"과 "Nvidia를 위협하는 것"은 서로 다른 기준입니다. 승자들은 스택 (stack)을 대체하기보다는 특정 니치 (niche) 시장으로 흡수되는 경향이 있습니다.

3. 가격 고착화 (Pricing lock-in)

생태계 장벽보다 덜 명확한 것은 더 저렴한 기판 (substrate)이 가격 책정에 미칠 영향입니다. GPU 클라우드 및 추론 API 가격은 현재의 GPU 비용 구조에 맞춰 조정되어 있습니다. 실질적으로 더 저렴한 기판은 단순히 마진을 개선하는 것에 그치지 않고, 추론 비즈니스 전체의 방어력을 약화시키는 가격 전쟁을 유발하며, 긴 감가상각 일정 하에 GPU 플릿 (fleet)에 이미 투입된 자본을 고립시킵니다. 따라서 칩 제조사부터 클라우드, API 제공업체에 이르기까지 스택 전반의 인센티브는, 진정으로 파괴적인 기판이 초래할 가격 폭락을 고객에게 전달하기보다는 효율성 개선분을 스스로 흡수하는 것입니다.

4. 고립된 자본: 동기 부여가 가장 적은 파괴자가 가장 많은 자본을 보유하고 있다

수치가 이를 구체적으로 보여줍니다. 4대 하이퍼스케일러(hyperscalers)는 2026년에 AI 인프라에 약 7,250억 달러를 지출할 궤도에 올라 있으며, 이는 2025년의 약 4,100억 달러에서 증가한 수치입니다. 이 지출의 거의 대부분은 오늘날의 기질(substrate)을 기반으로 구축된 GPU, 맞춤형 실리콘(custom silicon), 그리고 전력에 집중되어 있습니다.

이것은 비대칭성입니다. 진정으로 파괴적인 대안에 자금을 지원할 수 있을 만큼 충분한 자본을 가진 주체들은, 만약 그 대안이 너무 빠르게 성공할 경우 가장 큰 타격을 입게 될 바로 그 주체들이기도 합니다. 이는 재무제표 형태로 나타나는 '혁신가의 딜레마(innovator's dilemma)'입니다. 차세대 기술에 자금을 지원하기에 가장 유리한 위치에 있는 기업들은 구조적으로 그 기술을 빠르게 출시할 동기가 가장 적습니다. 기술을 출시하는 행위가 곧 자신들의 자산을 상각(write down)하는 것을 의미하기 때문입니다. TPU나 Trainium과 같은 맞춤형 실리콘(custom silicon) 프로그램은 Nvidia의 가격 결정력에 대한 헤지(hedge)로 읽혀야 하며, 자신들의 기존 자산(fleets)을 하룻밤 사이에 쓸모없게 만들려는 시도로 보아서는 안 됩니다. 하이퍼스케일러들은 이 전환을 관리하고 있는 것이지, 전환을 촉발하기 위해 경주하고 있는 것이 아닙니다.

5. 소비자 기기라는 위협: 단순한 경쟁이 아닌 탈중개화 (disintermediation)

더 나은 데이터 센터 칩보다 더 급진적인 버전이 있습니다. 바로 소비자용 실리콘(휴대폰 NPU, Apple의 Neural Engine, Qualcomm의 Snapdragon 등)이 양자화(quantized) 및 증류(distilled)된 모델을 실행하는 능력이 충분히 좋아져서, 사람들이 더 이상 API 호출 자체를 필요로 하지 않게 되는 상황입니다. 이는 이미 엣지(edge)에서 일어나고 있습니다. Apple Intelligence와 온디바이스(on-device) Llama 변형 모델들은 실제 작업의 상당 부분을 로컬에서 처리합니다. 이러한 기술이 프런티어급(frontier-scale) 학습이나 최대 규모의 모델을 곧바로 대체하지는 못할 것입니다. 왜냐하면 그런 모델들은 여전히 어떤 휴대폰도 가질 수 없는 데이터 센터 수준의 메모리 대역폭(memory bandwidth)과 상호 연결(interconnect)을 필요로 하기 때문입니다.

하지만 위험해지기 위해 반드시 프런티어를 대체할 필요는 없습니다. 만약 "충분히 괜찮은(good enough)" 수준의 성능이 누군가가 이미 소유한 하드웨어에서 실행된다면, 이는 중앙 집중식 API를 통해 라우팅되는 추론(inference) 트랜잭션의 수를 줄이고, 대부분의 AI 스타트업과 Nvidia 추론 매출의 상당 부분이 기반을 두고 있는 구독 및 토큰당 과금 경제를 침식합니다. 이는 더 저렴한 데이터 센터 칩보다 현재의 비즈니스 모델에 더 큰 위협이 될 수 있습니다. 왜냐하면 그것은 FLOP당 가격으로 경쟁하는 것이 아니라, 트랜잭션 그 자체를 두고 경쟁하기 때문입니다.

이것이 진공관 시대의 순간인가?

진공관에서 트랜지스터로의 전환 비유는 매력적입니다. 더 저렴한 기질(substrate)이 생존 가능성 임계값을 넘어서는 순간, 막대한 자본이 투입된 인프라가 구식이 되어버린다는 점 말입니다. 하지만 세부 사항을 들여다보면 양면성이 존재합니다. Bell Labs와 이후 IBM의 트랜지스터 기반 System/360은 그 전환에 조기에 투자했기에 그 시기를 포착할 수 있었습니다. 반면, 이를 방관했던 진공관 제조사들은 사라졌습니다. 자본의 고착(Capital lock-in)이 변화를 막은 것이 아니라, 누가 살아남을지를 결정한 것입니다.

이것이 여기서 더 유용한 관점입니다. GPU 함대와 함께 맞춤형 실리콘(custom silicon)에 자본을 쏟아붓고 있는 Nvidia와 하이퍼스케일러(hyperscalers)들은, 변화를 부정하기보다는 트랜지스터 시대의 생존자들이 했던 것처럼 양쪽 모두에 헤징(hedging)을 하고 있는 것에 더 가깝습니다.

결과: 기술적 한계가 아닌 안정적인 균형 상태

우리가 GPU에 갇혀 있는 이유는 그것이 최적이기 때문이 아니라, 성능의 적절성, 생태계의 성숙도, 공급망 규모, 경제적 타당성, 그리고 자신의 자본을 매몰시키지 않으려는 유인(incentive)을 동시에 충족하는 유일한 선택지이기 때문입니다.

워크로드가 CUDA를 포기할 만큼 충분히 좁고 안정적인 경우(가장 명확한 사례는 대량의 단일 모델 추론입니다), 특화된 실리콘(specialized silicon)은 이미 실질적인 점유율을 확보해 나가고 있습니다. 우리가 주목해야 할 경계선은 바로 이것입니다. 무언가가 GPU를 대체하느냐가 아니라, 경제성이 범용성(generality)을 선호하기 전까지 얼마나 많은 워크로드가 파편화되어 떨어져 나가는가 하는 점입니다.

만약 진정한 돌파구가 나타난다면, 그것은 기존 업체들로부터 나올 가능성이 낮습니다. 그들의 자본은 이미 투입되었으며, 그들의 유인은 전환을 촉발하는 것이 아니라 전환을 관리하는 것이기 때문입니다. 오히려 매몰될 자본이 아무것도 없는 누군가로부터 나올 가능성이 더 높습니다. 하지만 그 위협이 신뢰할 만하고 충분히 커 보이는 순간, Nvidia와 하이퍼스케일러들은 빠르게 움직여 인수하거나, 자금을 지원하거나, 혹은 압도적인 구축을 통해 그 시장으로 진입할 것입니다. 그들은 리스크를 인지하지 못하는 것이 아니라, 단지 자신의 재무제표를 걸고 먼저 승부수를 던지는 쪽이 되지 않을 뿐입니다.

Insights