AWS 가 OEM 이 될 것, 구글과 마이크로소프트와 마찬가지로
요약
주요 클라우드 서비스 제공업체(AWS, Azure, Google Cloud 등)는 사실상 원본 설계 제조사(OEM)의 역할을 수행하며, 고객에게 통합된 소프트웨어 스택을 제공하면서도 수평적 옵션성을 유지하고 있습니다. 그러나 AI 모델 제작사와 대기업들은 비용 효율성과 통제권을 위해 자체 데이터센터에 하드웨어를 직접 소유하고 운영하는 방식을 선호할 것으로 예상됩니다. 실제로 구글은 안토프니크(Anthropic)에게 TPU 랙을 자체 데이터센터에 설치하도록 허용했으며, 이는 클라우드 제공업체들이 점차 '임대' 모델에서 '판매/공동 구축' 모델로 전환하고 있음을 보여줍니다.
핵심 포인트
- 주요 클라우드 업체들은 수직적 통합을 이루면서도 고객에게 옵션성을 유지하는 OEM 역할을 수행하고 있다.
- AI 기업 및 대기업들은 비용 절감과 통제권 확보를 위해 자체 데이터센터에 하드웨어를 직접 소유(On-premise)하려는 경향이 강해지고 있다.
- 구글은 안토프니크에게 TPU 랙을 자사 데이터센터에 설치하도록 허용하며, 클라우드 서비스 제공 방식의 변화를 주도하고 있다.
- AI 컴퓨팅 인프라 구축 비용은 막대하여, 기업들은 장기적인 대규모 구매 계약(예: AWS와 안토프니크 간의 1000억 달러 규모 계약)을 체결하는 추세이다.
AWS Will Be An OEM, Just Like Google And Maybe Microsoft
기술 거인급 규모의 클라우드 구축자로서 갖는 것 중 하나는 운명을 스스로 통제한다는 점입니다. 그들은 하드웨어와 소프트웨어 스택을 공동 설계하고 최적화하여 그 철 (iron) 에서 최대한의 효율을 끌어내어 대량 생산 비용을 감당할 수 있게 하고, 이후 인프라 용량을 이익을 내며 임대합니다.
우리는 여러 차례 지적해 왔듯이, 주요 클라우드 서비스 제공업체들인 아마존 웹 서비스 (Amazon Web Services), 마이크로소프트 애저 (Microsoft Azure), 구글 클라우드 (Google Cloud) 는 오히려 원본 설계 제조사 (Original Design Manufacturer, OEM) 에 더 가깝습니다. 고객들이 원할 경우 해당 스택 내에서 여러 옵션을 허용하는 완전히 통합된 소프트웨어 스택을 생성합니다. 이는 수직적 통합 (vertical integration) 을 가지지만, 스택의 어느 층에서도 수평적 옵션성 (horizontal optionality) 을 희생하지 않습니다. 주요 클라우드 서비스 제공업체들은 데이터센터에서 실행할 수 있는 인프라 버전인 아웃포스트 (outposts) 를 허용하지만, 이러한 아웃포스트는 여전히 소유권과 관리권이 해당 업체에 있습니다. 그러나 주요 AI 모델 제작사와 아마도 많은 대기업들은 literal 로 소유하고 직접 운영하는 방식으로 더 저렴한 인프라를 원할 것입니다.
구글은 이미 이 길을 걷고 있으며, 2027 년부터 자체 데이터센터에 TPU 랙 (TPU racks) 을 설치하기 위해 안토프니크 (Anthropic) 에 3.5 기가와트의 TPU 용량을 구매할 수 있도록 허용했습니다. TPU 시스템은 구글에서 설계되지만 브로드컴 (Broadcom) 에서 제작되며, 이 거래에서 구글과 브로드컴 모두 수익을 올립니다. 현재 안토프니크는 구글 클라우드에서 TPU 용량을 임대하고 있으며, 이는 AI 컴퓨팅 엔진을 얻기 위한 가장 저렴한 방식이 아닙니다. 우리는 TPU 용량의 비용이 1 기가와트당 약 300 억 달러에서 350 억 달러 수준일 것으로 계산했으며, 이는 데이터센터, 전력, 냉각, 그리고 철 (iron) 을 포함한 안토프니크의 전체 시스템 투자액인 총 1050 억 달러에서 1225 억 달러 사이의 범위에 해당합니다.
안토프니크가 TPU 시스템을 직접 구매하기를 원한다고 말했을 때 구글은 두 가지 선택지가 있었습니다. '예'라고 답하거나, 실제로 자금이 있고 급성장하고 있는 고객인 안토프니크를 잃을 수도 있다는 것이었습니다. 안토프니크는 AWS 와도 긴밀한 관계를 맺고 있으며, 작년 말까지 AWS 가 클라우드에 배포한 140 만 개의 트레인미엄 (Trainium) 중 안토프니크는 클로드 (Claude) 모델을 학습시키고 해당 모델에 대한 추론을 100 만 개 이상의 트레인미엄 2(Trainium2) 칩에서 수행하고 있습니다. AWS 와 안토프니크는 2026 년 말까지 추가 1 기가와트의 트레인미엄 2(Trainium2) 와 트레인미엄 3(Trainium3) 칩을 현장에 도입하기 위한 계약을 체결했으며, 이는 약 50 만 개에서 60 만 개의 XPU 에 해당합니다. 그리고 이번 달에만 두 회사는 현재부터 2036 년까지 총 5 기가와트의 트레인미엄 용량을 확보하기 위해 1000 억 달러 규모의 계약을 체결했습니다. 이는 약 250 만 개에서 300 만 개의 XPU 에 해당합니다.
우리는 안토프니크가 그 모든 용량을 임대할 것이라 생각하지 않으며, 대신 완전한 트레인미엄 (Trainium) 시스템을 구매하여 자체 데이터센터에 배치하고 클라우드 프리미엄을 지불하는 것을 중단하기를 원한다고 생각합니다. 또한 우리는 안토프니크가 AWS 의 아나푸르나 랩스 (Annapurna Labs) 분서를 사용하는 칩 셰퍼드 (chip shepherds) 인 마벨 (Marvell) 과 알칩 (Alchip) 과 협력할 것이라 생각합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 The Next Platform의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기