메타의 AI 컴퓨팅 전략 변화: 엔비디아 의존도와 자체 개발 노력
요약
본 글은 메타 플랫폼스(Meta Platforms)가 대규모 AI 시스템 구축 과정에서 겪는 컴퓨팅 자원 확보의 어려움과 그에 따른 엔비디아(Nvidia) 의존도 변화를 분석합니다. 과거에는 자체 개발한 Open Compute Project (OCP) 설계를 포기하고 엔비디아의 GPU 및 인프라 솔루션을 대규모로 도입해왔습니다. 최근 메타는 MTIA v2 추론 가속기나 AMD와의 협력을 통해 독립성을 확보하려 노력하지만, 결국 이번 거래에서는 다시 엔비디아의 Blackwell 및 Rubin GPU를 구매하고 자사 네트워크 OS(FB
핵심 포인트
- 메타 플랫폼스는 AI 컴퓨팅 수요가 급증하자 자체 OCP 설계를 포기하고 엔비디아의 A100, H100 등 솔루션을 대규모로 도입해왔습니다.
- 과거 2022년에는 인텔(Intel) 및 AMD의 공급 부족으로 인해 엔비디아의 Ampere 기반 A100 GPU를 활용한 2,000 노드 RSC 시스템을 구축했습니다.
- 최근 메타는 MTIA v2 추론 가속기 개발과 AMD와의 'Helios' 협력을 통해 엔비디아 의존도를 낮추려 시도했으나, 이번 거래에서도 Blackwell 및 Rubin GPU를 대량으로 구매합니다.
- 메타의 AI 인프라 구축은 단순히 모델 학습을 넘어 추천 엔진 등 서비스 전반에 걸쳐 고성능 클러스터가 필수적입니다.
최근 메타 플랫폼스(Meta Platforms)와 엔비디아(Nvidia) 간의 대규모 AI 시스템 거래는 빅테크 기업들이 컴퓨팅 자원을 확보하는 과정에서 겪는 구조적인 어려움을 보여줍니다. 이는 단순히 일정 지연 문제를 넘어, 핵심 인프라 설계 자체를 변경해야 할 만큼 심각한 문제입니다.
메타는 고성능 클러스터가 필요한 서비스(예: 추천 엔진)를 위해 CPU와 가속기를 긴밀하게 결합하는 아키텍처에 의존해 왔습니다. 이러한 요구사항 때문에 메타는 과거 자체 개발했던 Open Compute Project (OCP) 설계를 포기하고, 엔비디아의 솔루션을 받아들이는 경향을 보여왔습니다.
과거 사례를 보면, 2022년 초에는 인텔(Intel)이 제때 GPU를 공급하지 못하고 AMD 역시 충분한 물량을 확보하기 어려워지자, 메타는 엔비디아의 Ampere 기반 A100 GPU를 활용하여 2,000 노드 규모의 RSC 시스템을 구축하는 수순을 밟았습니다. 이 과정에서 마이크로소프트(Microsoft)와 메타가 만든 OAM (Open Accelerator Module) 소켓 형식이 핵심이었으나, 공급 부족으로 인해 자체 개발한 'Grand Teton' CPU-GPU 시스템 대신 엔비디아의 SXM 소켓 기반 인프라를 사용하게 된 것입니다.
이후에도 상황은 녹록지 않았습니다. 2022년 3월에는 H100 가속기를 포함해 50만 개 이상의 성능에 달하는 클러스터 구축 계획을 발표하며 엔비디아의 자원 확보가 필수적임을 입증했습니다.
최근 메타는 이러한 의존도를 낮추기 위해 MTIA v2 추론 가속기를 자체 개발하고, AMD와 협력하여 'Helios' 오픈 랙 디자인을 선보이는 등 다각적인 노력을 기울였습니다. Helios 랙은 엔비디아의 고밀도 'Oberon' 시스템보다 밀도가 낮지만, 전력 및 무게 측면에서 대안이 될 수 있습니다.
하지만 이번 최신 거래에서는 다시금 엔비디아에 크게 의존하는 모습입니다. 메타는 엔비디아의 CPU와 GPU를 구매하고, 자사의 네트워크 OS인 FBOSS를 엔비디아의 Spectrum-X 스위치 ASIC 및 시스템으로 포팅할 예정입니다. 구체적인 수치는 공개되지 않았으나, '수백만 개의 Blackwell 및 Rubin GPU'를 구매하는 것으로 알려졌습니다. 이 중 일부는 자체 데이터센터에 설치되고 나머지 부분은 AWS, Microsoft, Google 등 공용 클라우드나 CoreWeave 같은 전문 네오클라우드(neoclouds)에서 임대할 계획입니다.
결론적으로 메타의 AI 인프라 구축 과정은 '최적의 성능'과 '가장 빠른 확보 가능성' 사이에서 끊임없이 줄다리기를 하고 있으며, 현재까지는 엔비디아 생태계 내에서의 대규모 자원 구매를 통해 문제를 해결하고 있는 것으로 분석됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 The Next Platform의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기