AI 하드웨어 스택이 웨이퍼 단계부터 재구축되고 있는 이유

단 하나의 H100이 학습 작업을 수행하기 전, 그것은 산업 역사상 가장 제약이 심한 공급망 중 하나를 통과해야 합니다. 모든 진지한 AI 가속기(H100, B200, Cerebras WSE-3 등)는 TSMC 웨이퍼 위에서 생애를 시작하고, ASML의 EUV 장비에 의해 식각되며, 2026년까지 매진된 CoWoS 패키징 용량을 위해 대기열에서 기다립니다. 그 위에 무언가를 구축하려는 사람에게 이 스택을 이해하는 것은 매우 중요합니다. 왜냐하면 하단의 제약 사항들이 컴퓨팅 비용이 얼마인지, 지연 시간(Latency)이 어떠한지, 그리고 어떤 아키텍처적 베팅이 실제로 성과를 거둘지를 결정하기 때문입니다.

아무도 이야기하지 않는 공장 현장

TSMC는 첨단 칩 제조 시장의 72%를 점유하고 있습니다. 이는 쉽게 다각화할 수 있는 시장 점유율 수치가 아닙니다. 그리고 그 아래에는 5nm 미만의 패턴을 인쇄하는 장비인 EUV 노광 공정(EUV lithography)을 거의 독점하고 있는 ASML이 자리 잡고 있습니다. ASML 장비가 없다는 것은 첨단 칩이 없다는 것을 의미하며, 이는 결론적으로 명확합니다. 현존하는 모든 H100과 B200은 두 회사를 모두 거쳐 만들어졌습니다.

하지만 현재 진짜 병목 지점(Chokepoint)은 트랜지스터가 아닙니다. 그것은 바로 CoWoS 패키징으로, 공유 기판(Substrate) 위에 컴퓨팅 다이(Compute die) 옆으로 고대역폭 메모리(HBM)를 물리적으로 쌓는 공정입니다. HBM은 이 칩들에 메모리 대역폭(Memory bandwidth)을 제공하는 핵심이며, CoWoS 없이는 이를 구축할 수 없습니다. 해당 패키징 용량은 2026년까지 매진되었습니다. TSMC는 2026년 한 해에만 520억~~560억 달러의 자본 지출(Capex)을 지출할 예정이며, 그 중 70~~80%가 첨단 노드(Advanced nodes)에 투입되지만, 여전히 대기열을 해소하기에는 부족합니다.

AI 가속기 웨이퍼 수요는 2022년에서 2026년 사이에 11배 증가합니다. 이것은 단순한 수요 급증이 아닙니다. 그것은 구조적 변화입니다. 이 부족 현상은 두 분기 안에 해소될 일시적인 공급 문제(Supply hiccup)가 아닙니다. 이에 맞춰 계획을 세우십시오.

추론(Inference)에 GPU가 과도한 성능인 이유

NVIDIA는 H100과 B200을 통해 AI 학습(Training) 시장을 지배하고 있습니다. 이러한 지배력은 실재하며, 해당 칩들이 설계된 워크로드(Workload)를 고려할 때 마땅한 결과입니다. 학습은 처리량(Throughput)의 문제입니다. 거대한 클러스터(Cluster) 전체에서 대규모 행렬 곱셈(Matrix multiplications)을 병렬로 실행해야 하며, HBM(High Bandwidth Memory)을 탑재한 GPU 아키텍처(Architecture)는 이에 진정으로 탁월합니다.

추론(Inference)은 다른 문제입니다. 토큰(Token)을 순차적으로 생성하고, 활성화 값(Activations)을 끊임없이 이동시켜야 하며, 가공되지 않은 FLOP(Floating Point Operations) 처리량보다 토큰당 지연 시간(Latency)이 더 중요합니다. GPU 클러스터에서 추론을 실행할 때, 여러분은 학습에 최적화된 실리콘(Silicon)에 비용을 지불하고 있으며, 가치를 더하지 않으면서 지연 시간만 늘리는 칩 간 통신 오버헤드(Inter-chip communication overhead)에 많은 사이클(Cycles)을 소비하고 있는 것입니다.

업계에서 커지는 인식은 추론에는 재용도 변경된 학습용 칩이 아니라, 추론만을 위한 독자적인 아키텍처가 필요하다는 것입니다.

Cerebras가 실제로 구축한 것

Cerebras는 하드웨어 분야에서 가장 역발상적인 베팅 중 하나를 감행했습니다. 바로 실리콘 웨이퍼(Silicon wafer) 전체 크기의 단일 칩을 만드는 것이었습니다. WSE-3는 4조 개의 트랜지스터(Transistors), 90만 개의 코어(Cores), 그리고 21 PB/s의 메모리 대역폭(Memory bandwidth)을 갖추고 있습니다. 아키텍처적 통찰은 간단합니다. 모든 것이 하나의 다이(Die) 위에 있다면, 칩 간 통신을 완전히 제거할 수 있습니다. GPU 사이에서 활성화 값을 이동시키는 네트워크 패브릭(Network fabric)이 존재하지 않습니다. 그저 하나의 거대한 온칩(On-chip) 연산 표면일 뿐입니다.

벤치마크 결과는 무시하기 어렵습니다. WSE-3는 Llama 3 70B 추론 워크로드에서 NVIDIA B200보다 21배 더 빠릅니다. 4,000억 개의 파라미터(Parameters)를 가진 Llama 4 Maverick에서 사용자당 초당 2,500개의 토큰을 생성하며, 이는 B200의 두 배가 넘는 수치입니다. SemiAnalysis는 추론 토큰당 비용이 B200보다 32% 더 낮다고 평가합니다.

OpenAI는 이를 분명히 진지하게 받아들였습니다. 2025년 12월, 그들은 Cerebras와 750 MW의 추론 용량(최대 2 GW까지 확장 가능)을 확보하기 위해 200억 달러 이상의 기본 관계 계약(Master Relationship Agreement)을 체결했습니다. 2026년 2월에는 Codex-Spark가 Cerebras 인프라에서 가동되었습니다. OpenAI가 NVIDIA로부터 추론 공급망을 다각화하고 있다는 것은 주목할 만한 신호입니다.

이것이 빌더(Builders)들에게 의미하는 바

만약 당신이 RAG (Retrieval-Augmented Generation, 검색 증강 생성) 파이프라인, 에이전트 프레임워크 (agent framework), 또는 멀티 테넌트 (multi-tenant) LLM 플랫폼을 운영하고 있다면, 컴퓨팅 비용은 이미 가장 큰 비용 항목이며 지연 시간 (latency)은 주요 SLA (Service Level Agreement, 서비스 수준 협약) 조절 레버입니다. Cerebras의 수치가 여기서 특히 중요한 이유는 멀티 테넌트 추론 플랫폼이 대규모 환경에서 사용자당 초당 토큰 수 (tokens-per-second-per-user)에 따라 생사가 결정되기 때문입니다. 토큰당 비용을 32% 낮추면서 처리량 (throughput)을 2배 개선하는 것은 당신의 단위 경제성 (unit economics)을 의미 있는 방식으로 변화시킵니다.

더 중요한 변화는 아키텍처 (architectural) 측면입니다. 단일 컴퓨팅 제공업체를 중심으로 인프라를 모델링해서는 안 됩니다. 추론 계층 (inference layer)이 분절되고 있습니다. NVIDIA가 여전히 학습 (training) 시장을 점유하고 있습니다. 하지만 지연 시간에 민감한 추론 워크로드 (inference workloads)의 경우, 목적에 맞게 설계된 실리콘 (purpose-built silicon)이 빠르게 추격하고 있습니다. 특정 업체에 종속(lock-in)되기 전에, 지금 바로 제공업체에 구애받지 않는 (provider-agnostic) 배포 계층을 설계하십시오.

오늘 바로 해야 할 한 가지

지난 30일 동안의 토큰 1,000개당 현재 추론 비용과 p95 지연 시간을 추출한 다음, Cerebras Cloud의 무료 티어 또는 트라이얼 (trial)을 통해 동일한 프롬프트 워크로드를 실행해 보십시오. 그 수치들을 나란히 놓고 비교하십시오. 벤치마크를 맹목적으로 신뢰하지 마십시오. 당신의 실제 워크로드를 실행하십시오.

AI 엔지니어링 인프라에서 실제로 무엇이 변하고 있는지, 그리고 그것이 당신이 구축하고 있는 시스템에 무엇을 의미하는지에 대한 일일 포스트를 여기서 계속 확인하십시오.

AI 하드웨어 스택이 웨이퍼 단계부터 재구축되고 있는 이유

요약

핵심 포인트

AI 하드웨어 스택이 웨이퍼 단계부터 재구축되고 있는 이유

아무도 이야기하지 않는 공장 현장

추론(Inference)에 GPU가 과도한 성능인 이유

Cerebras가 실제로 구축한 것

이것이 빌더(Builders)들에게 의미하는 바

오늘 바로 해야 할 한 가지

댓글