Musk의 Colossus 1 AI 슈퍼컴퓨터의 비효율적인 혼합 아키텍처 설계로 인해 Grok 학습에 사용할 수 없게 되자

지난주, Anthropic은 220,000개 이상의 GPU와 30메가와트(MW)의 컴퓨팅 용량을 갖춘 SpaceX의 Colossus 1 데이터 센터 전체를 임대하는 계약을 체결했다고 발표했습니다. 이 계약은 즉각적인 의문을 불러일으켰으며, 그중 가장 중요한 질문은 다음과 같습니다: 왜 Musk는 xAI의 가장 공격적으로 홍보된 AI 자산 중 하나를 직접적인 경쟁사에게 임대하는 것일까요? SpaceX의 IPO가 코앞으로 다가온 상황에서 관련 전략이 작용하고 있는 것으로 보이지만, 서로 다른 유형의 GPU를 사용하는 시스템의 혼합 아키텍처 (Mixed architecture)가 Musk가 시스템 임대를 결정한 핵심 이유일 수도 있다는 사실이 밝혀졌습니다.

Musk가 이전에 Anthropic에 대해 취했던 입장을 완전히 뒤집은 이 보기 드문 파트너십은 또한 Anthropic이 Claude 생태계의 컴퓨팅 수요로 인해 어려움을 겪고 있음을 드러냅니다. 이 회사는 Claude 사용 경험을 개선하기 위해서만 300MW 규모의 AI 슈퍼클러스터 (Supercluster) 전체가 필요하다고 말합니다.

Anthropic이 컴퓨팅 한계에 부딪힌 것으로 보임

Anthropic이 성장하는 사용자 기반의 컴퓨팅 수요를 따라가는 데 어려움을 겪고 있다는 가장 초기 징후는 Claude 서비스 전반에 걸쳐 점점 더 공격적으로 적용되는 사용 제한이었습니다. 무료 사용자들은 Claude가 작업 처리를 위해 할당하는 단위인 토큰 (Tokens)이 빠르게 소진되는 것에 대해 자주 불만을 제기했습니다. 그러나 이러한 제한은 무료 티어에만 국한되지 않았습니다. 유료인 Pro, Max, Team 및 Enterprise 사용자들도 특히 수요가 많은 기간 동안 메시지 캡 (Message caps), 피크 시간대 스로틀링 (Throttling), API 속도 제한 (Rate limits), 그리고 Claude Code 세션에 대한 엄격한 시간 기반 사용 상한선에 정기적으로 직면했습니다.

Anthropic의 추론 (Inference) 용량이 고갈되고 있음이 분명해졌습니다. AI 모델을 학습 (Training)시키는 것은 비용이 많이 드는 일회성 계산 작업인 반면, 해당 모델을 수백만 명의 사용자에게 동시에 서비스하는 것은 새로운 사용자와 새로운 쿼리(Query)가 발생할 때마다 직접적으로 확장되는 지속적이고 24시간 작동하는 컴퓨팅 수요를 창출합니다. 명백한 해결책은 더 많은 데이터 센터를 구축하는 것이며, Anthropic은 Amazon, Google, Microsoft, Nvidia와의 대규모 기가와트 (Gigawatt)급 계약을 통해 이를 추진하고 있는 것으로 보입니다.

하지만 현대의 하이퍼스케일 (Hyperscale) AI 데이터 센터는 구축에 수백억 달러의 비용이 들 수 있으며, 건설에 수년이 걸릴 수도 있습니다. 유틸리티 (Utilities) 기업들은 AI 프로젝트에 충분한 전력을 공급하는 데 점점 더 어려움을 겪고 있는 반면, 부지, 변압기, 냉각 인프라 (Cooling infrastructure), 그리고 하이엔드 GPU 자체도 여전히 제약이 있는 상태입니다. 또한 지역 사회로부터 AI 인프라에 반대하는 정서도 커지고 있습니다. 우리는 최근 미국의 한 상원의원이 데이터 센터 문제에 대한 대치 상황 이후 기자와 물리적 충돌을 일으켰다고 보도한 바 있습니다.

Anthropic의 컴퓨팅 용량 문제는 즉각적이고 시급했지만, 해결책은 상당히 장기적이었습니다. 만약 수백 메가와트 (Megawatt)급의 컴퓨팅 파워를 갖춘 거대한 AI 슈퍼클러스터 (Supercluster)가 그냥 그곳에 놓여 있기라도 한다면 얼마나 좋을까요. 알고 보니 그런 것이 있었습니다. 바로 SpaceXAI의 Colossus 1입니다. 계약에 따라, Colossus 1의 전체 컴퓨팅 파워는 현재 Anthropic의 소유입니다 — 일단은 말이죠.

Musk, xAI, SpaceX, 그리고 다가오는 IPO

Musk가 Colossus를 공개했을 때, 이는 xAI가 AI 프런티어 (Frontier)에서 OpenAI, Anthropic, Google과 진지하게 경쟁하려 한다는 가장 명확한 신호 중 하나로 틀이 잡혔습니다. 멤피스 (Memphis)에 기반을 둔 이 클러스터 (Cluster)는 얼마나 빠르게 조립되었는지로 유명해졌습니다. 수만 개의 Nvidia GPU가 기록적인 시간 내에 가동된 것으로 보고되었으며, 결과적으로 220,000개 이상의 가속기 (Accelerators) 규모로 확장되었습니다. Musk는 Colossus 2를 통해 백만 GPU급 시스템으로 확장하려는 계획을 포함하여, xAI의 미래 컴퓨팅 야망에 대해 반복적으로 자랑해 왔습니다.

그렇다면 왜 그는 이 모든 것을 깔끔하게 정리하여 xAI의 경쟁사인 Anthropic에 넘겨준 것처럼 보이는 걸까요? 한 가지 가능한 답변은 활용도 (Utilization)입니다. 보고서에 따르면 Colossus 1은 Grok의 현재 사용자 기반이 요구하는 것보다 더 많은 가용 용량을 가지고 있었을 수 있습니다. 하지만 한국의 주요 투자은행인 미래에셋증권의 상세 보고서에 따르면, 더 큰 활용도 문제는 아키텍처 (Architectural) 측면에서 발생했습니다. Colossus 1은 약 150,000개의 H100, 50,000개의 H200, 그리고 20,000개의 GB200을 혼합한 이기종 클러스터 (Heterogeneous cluster)로, 세 가지 서로 다른 세대의 Nvidia 실리콘이 한 지붕 아래에서 작동하고 있습니다. 이는 의도적인 설계 선택이라기보다는, 공급이 허용되는 대로 서로 다른 GPU 세대들이 가동되면서 xAI가 클러스터를 얼마나 빠르게 조립했느냐에 따른 부산물에 가까웠습니다.

AI 학습 (AI training)을 위해, 이러한 이기종 구성은 심각한 효율성 문제를 야기합니다. 분산 학습 (Distributed training)은 시스템이 다음 단계로 넘어가기 전, 클러스터 내의 모든 GPU가 각 계산 단계를 동시에 완료해야 합니다. 더 빠른 GB200 칩들이 작업을 먼저 완료하면, 전체 클러스터는 더 느린 H100들이 따라잡을 때까지 기다려야 합니다. 이는 '낙오자 효과 (Straggler effect)'라고 알려진 잘 알려진 병목 현상 (Bottleneck)입니다. 220,000개의 칩 규모에서는 이 효과가 기하급수적으로 나타납니다.

이러한 문제들의 결과로, xAI의 실제 GPU 활용도는 단 11%에 머물렀다고 보고되었습니다. 이는 클러스터의 이론적 컴퓨팅 파워 중 89%가 낭비되고 있음을 의미합니다. 참고로 Meta와 Google은 통상적으로 40% 이상의 활용도를 유지합니다.

AI GPU는 선반 위에 조용히 놓여 시간이 흐름에 따라 가치가 상승하는 정적인 자산이 아닙니다. GPU는 빠르게 가치가 하락(Depreciate)하며, 엄청난 양의 전력을 소비하고, 값비싼 유지보수 및 냉각 인프라를 필요로 합니다. 사용되지 않는 GPU는 사실상 돈을 태우고 있는 것과 같습니다.

그러한 관점에서 볼 때, Anthropic은 정확히 적절한 시점에 도착했을지도 모릅니다. Anthropic은 폭발적인 수요와 즉시 사용 가능한 컴퓨팅 자원(Compute)에 대한 절박한 필요성을 가지고 있었던 반면, SpaceX/xAI는 거대하지만 그리 뛰어나지는 않은 1세대 AI 클러스터를 보유하고 있었습니다. 그러나 Anthropic에게 이 클러스터는 상당히 다르게 보였습니다. 이 회사는 추론 (Inference) — 즉, 이미 학습된 모델을 통해 쿼리를 실행하는 데 필요한 컴퓨팅 파워를 필요로 했으며, 이는 학습 (Training) 워크로드가 요구하는 긴밀한 동기화 (Synchronization)를 필요로 하지 않습니다. 따라서 xAI의 학습 워크로드에는 구조적 비효율성이었던 것이 Anthropic의 추론 요구 사항에는 실행 가능한 인프라가 된 것입니다.

여러 보고서에 따르면 xAI는 현재 기가와트 (Gigawatt) 규모의 AI 인프라를 목표로 하는 훨씬 더 큰 차세대 클러스터인 Colossus 2에 집중하고 있습니다. 칩 세대가 혼합되어 혼란스러웠던 Colossus 1과 달리, Colossus 2는 모든 GPU가 동일한 Nvidia의 Blackwell 아키텍처를 기반으로 구축된 균질한 (Homogeneous) 클러스터입니다. 균일한 클러스터에서는 모든 칩이 대략 같은 시간에 각 학습 단계를 완료하므로, 이론적으로 GPU 활용률 (Utilization)이 현재 Meta와 Google이 운영하는 범위를 넘어설 수 있습니다. 또한 xAI는 세 가지 세대를 동시에 지원하려고 애쓰는 대신, 단일 하드웨어 세대에 맞춰 소프트웨어 스택 (Software stack)을 적절히 최적화할 수 있습니다.

Mirae Asset 보고서에 따르면, xAI는 이미 핵심 학습 워크로드를 완전히 Colossus 2로 옮겼으며, Colossus 1은 사실상 퇴역한 1세대 자산으로 취급하고 있습니다. 즉, Colossus 1은 "최첨단 프런티어 학습 병기"에서 수익화 가능한 1세대 컴퓨팅 자산으로 전환되었을 수 있으며, 그동안 Musk는 Colossus 2를 통해 xAI의 "장악"을 향해 계속 나아가고 있습니다.

Musk는 오랫동안 자신의 회사들을 개별적인 엔티티라기보다 더 넓은 생태계의 상호 연결된 조각들처럼 다루어 왔습니다. Tesla의 기술은 SpaceX 프로젝트 전반에 걸쳐 나타납니다. SpaceX의 인프라는 xAI의 야망을 뒷받침합니다. xAI의 제품들은 점점 더 Musk의 더 넓은 플랫폼 전략에 기여하고 있습니다.

이번 거래는 또 다른 가능성도 암시합니다. Musk가 SpaceX/xAI를 AI 클라우드 인프라 (AI cloud infrastructure) 제공업체에 더 가깝게 포지셔닝하고 있을 수 있다는 점입니다. 이는 전혀 놀라운 일이 아닙니다. xAI는 이미 API, 보안 제어 (security controls), 감사 로깅 (audit logging), 그리고 기업용 통합 (corporate integrations) 기능을 갖춘 Grok Business 및 기업용 제품군을 출시했습니다. 이는 또한 회사의 향후 IPO를 앞두고 SpaceX와 xAI에서 더 광범위한 구조적 변화를 꾀하고 있다는 Musk의 보도된 계획과도 일치합니다.

올해 초, Musk는 Anthropic과 Claude를 공개적으로 공격하며 해당 회사를 “인류를 싫어하고 사악하다 (misanthropic and evil)”라고 불렀습니다. 하지만 이번 주, 그는 Anthropic 경영진과 대화한 후 “그 누구도 나의 사악함 탐지기 (evil detector)를 작동시키지 않았다”라고 판단하여 이 거래를 승인했다고 주장했습니다.

Mirae Asset의 분석가들은 다양한 Nvidia GPU 유형의 예상 시간당 임대율을 사용하여 Anthropic 거래의 가치를 추정하려고 시도했습니다. 분석가들은 Colossus 1이 이론적으로 연간 약 50억~60억 달러의 매출을 창출할 수 있을 것으로 전망했습니다. 이는 2026년 1분기 기준 xAI의 연간 순손실인 약 60억 달러를 거의 완벽하게 상쇄하며, 단 하나의 계약으로 회사를 사실상 손익분기점 (breakeven)으로 끌어올립니다.

Anthropic의 경우, 분석가들은 AI 산업 전체 컴퓨팅 지출의 약 절반이 추론 (inference)에 사용되며, 추론 컴퓨팅은 3배의 승수 (multiplier)로 매출로 전환된다는 CEO Dario Amodei의 공개적인 추정치를 적용했습니다. 이를 바탕으로 추론 용량에 투입되는 50억 달러는 약 150억 달러의 증분 ARR (연간 반복 매출, Annual Recurring Revenue)을 창출할 수 있으며, 이는 이미 빠르게 성장하고 있는 Anthropic의 매출 기반에 상당한 추가 동력이 될 수 있습니다.

거대한 야망 (Stellar ambition)

이번 발표의 또 다른 중요한 측면은 “궤도 AI 컴퓨팅 용량 (orbital AI compute capacity)” — 기본적으로 우주에 있는 데이터 센터를 의미합니다. 물론, 이는 공상 과학 소설의 마케팅 용어처럼 들릴 수도 있습니다. 하지만 이는 여러 다른 AI 거물들과 함께 두 회사 모두가 점점 더 직면하고 있는 핵심 문제와 직접적으로 연결됩니다. 즉, AI 인프라가 지상(terrestrial)의 제약을 벗어나기 시작했다는 점입니다. 따라서 세계 최대의 AI 기업과 세계 최대의 재사용 가능한 로켓 시스템을 구축하고 궤도상에서 수천 개의 활성 위성을 운영하는 기업이 공동 발표를 했다면, 머지않아 우주를 떠다니는 데이터 센터를 보게 될 수도 있다고 믿는 것이 좋을 것입니다.

미래에셋(Mirae Asset)의 분석에도 불구하고, Colossus 계약의 실제 재무적 세부 사항은 공개적으로 이용할 수 없습니다. 하지만 Anthropic은 최근 Series G 펀딩 라운드에서 300억 달러를 조달하며 기업 가치를 3,800억 달러로 평가받았습니다. 그 자금 중 일부가 Colossus 계약을 지원하는 데 사용되었을 것이라고 추측하는 것은 그리 무리한 일이 아닐 것입니다. 한편, 이 회사는 지난달 연간 매출 실행률(annualized revenue run rate)이 이미 300억 달러를 넘어섰다고 밝히며, Claude의 비즈니스가 현재 운영되고 있는 경이로운 규모를 강조했습니다.

xAI는 Colossus 1을 빠르게 구축했습니다 — 결과적으로 너무 빠르게 구축한 것이 화근이 되었습니다. 그 결과로 나타난 혼합 GPU 아키텍처(mixed GPU architecture)는 구조적인 학습 비효율성을 초래하여, 해당 클러스터를 장기적인 플랫폼으로 정당화하기 어렵게 만들었습니다. 이제 Colossus 2가 가동되고 균일한 Blackwell 하드웨어로 제대로 구축됨에 따라, Colossus 1은 더 나은 용도를 찾는 1세대 자산이 되었습니다.

폭발적인 수요에도 불구하고 컴퓨팅 자원이 부족했던 Anthropic이 바로 그 용도를 제공했습니다. 이 계약은 사실상 가치가 하락하는 부채(depreciating liability)였던 것을 연간 약 60억 달러의 매출로 전환하며, 이는 xAI가 손익분기점에 도달할 수 있을 만큼 충분한 금액입니다. Anthropic의 경우, 동일한 컴퓨팅 자원을 통해 추정치 150억 달러의 추가 연간 반복 매출(ARR)을 확보할 수 있습니다. 두 회사 모두 필요한 것을 얻었으며, Musk는 잠재적인 IPO를 앞두고 설득력 있는 인프라 스토리를 갖게 되었습니다.

Etiido Uko는 빅테크와 PC 산업의 최신 업데이트를 다루는 Tom's Hardware의 뉴스 기고자입니다. 그는 기계 공학자이자 9년 이상의 문서화 및 보고 경험을 가진 시니어 테크니컬 라이터 (Senior Technical Writer)입니다. 그는 공학 및 기술의 모든 분야에 깊은 열정을 가지고 있으며, 가젯 (Gadgets), 제조 (Manufacturing), 로보틱스 (Robotics), 자동차 (Automotive), 그리고 항공우주 (Aerospace) 분야의 전문가입니다.

Musk의 Colossus 1 AI 슈퍼컴퓨터의 비효율적인 혼합 아키텍처 설계로 인해 Grok 학습에 사용할 수 없게 되자

요약

핵심 포인트

Anthropic이 컴퓨팅 한계에 부딪힌 것으로 보임

Musk, xAI, SpaceX, 그리고 다가오는 IPO

거대한 야망 (Stellar ambition)

댓글