TNP중요헤드라인2026. 04. 24. 02:28

메타의 MTIA 컴퓨팅 엔진 로드맵 분석: 차세대 AI 인프라 전망

요약

본 글은 메타(Meta Platforms)가 자체 개발하는 MTIA (Meta Training and Inference Accelerator) 컴퓨팅 엔진의 미래 로드맵을 심층 분석합니다. 과거 DLRM(Deep Learning Recommendation Models)이 벡터 임베딩 공간에 의존했던 것과 달리, 최신 모델인 DLRM v3는 LLM처럼 사용자 활동을 '언어'로 간주하는 생성형 추천기(Generative Recommenders) 방식을 채택합니다. 이러한 변화를 지원하기 위해 메타는 MTIA 100/200 및 차세대 아

핵심 포인트

메타의 DLRM은 기존에는 벡터 임베딩 공간에 의존했으나, 최신 버전(DLRM v3)에서는 LLM과 유사하게 사용자 활동을 언어로 간주하는 생성형 추천기(Generative Recommenders) 방식을 채택했습니다.
이러한 변화를 지원하기 위해 메타는 MTIA 컴퓨팅 엔진의 아키텍처를 GPU 및 AI XPU와 유사하게 재설계하고 있으며, 이는 빠른 메모리 접근과 높은 컴퓨팅 성능을 요구합니다.
MTIA 로드맵은 단순히 성능 향상을 넘어, DLRM과 LLM 양쪽 분야 모두에 적용 가능한 HTSU(Hierarchical Sequential Transduction Unit) 기술을 코디자인하여 비용 효율성을 극대화하는 데 초점을 맞추고 있습니다.
메타는 MTIA 300 버전을 이미 R&R 트레이닝 워크로드에 투입하고 있으며, 향후 세대 제품들은 이러한 생성형 추천 및 LLM 추론(inference) 작업에 최적화될 것으로 예상됩니다.

AI 컴퓨팅 엔진의 미래는 '더 많이'라는 명제 외에는 예측하기 어렵습니다. 특히 AI 모델 개발 속도가 칩 개발 주기를 앞지르는 현 상황에서, 대규모 모델 빌더와 추론(inference) 서비스를 운영하는 기업들은 다중 제품, 다중 소스, 다중 공급업체 전략을 통해 리스크를 헤지해야 합니다.

메타 플랫폼스는 방대한 사용자 생성 콘텐츠 기반의 랭킹 및 추천 엔진(R&R applications)을 운영해 왔습니다. 초기에는 CPU 기반 알고리즘이었으나, 점차 GPU 가속기를 활용하는 DLRM(Deep Learning Recommendation Models)으로 진화했습니다. DLRMs는 데이터를 벡터로 변환하여 거대한 다차원 벡터 공간에 관계를 구축하며 예측적(predictive)인 추천을 가능하게 합니다.

문제는 이처럼 수십조 단위의 상호작용을 처리할 만큼 충분히 큰 메모리 공간을 확보하는 것이 매우 어렵다는 점입니다. 메타는 이를 해결하기 위해 GPU와 CPU 간에 '핫'한 임베딩 테이블은 GPU(HBM)가, 나머지 데이터는 CPU(DRAM)가 분담하도록 하는 하이브리드 시스템('Zion', 'Grand Teton')을 설계했습니다.

하지만 DLRM의 개선이 컴퓨팅 자원 증가에 비례하여 선형적으로 늘어나지 않는다는 근본적인 한계에 봉착했습니다. 이에 2024년부터 메타는 새로운 접근 방식인 **생성형 추천기(Generative Recommenders)**를 도입하고, 이 과정에서 LLM의 기술을 차용한 HSTU (Hierarchical Sequential Transduction Unit) 기법을 사용하기 시작했습니다. 이는 사용자 활동 자체를 일종의 '언어'로 취급하여, 마치 LLM이 다음 토큰을 예측하듯 다음에 할 행동을 생성적으로 예측하는 방식입니다.

저자는 이처럼 DLRMs를 LLM과 유사하게 변모시키려는 시도와 그 기반 기술(HSTU)이야말로 메타가 자체 컴퓨팅 엔진인 MTIA 개발에 박차를 가하는 핵심 동력이라고 분석합니다. 자체 칩을 설계하는 유일한 목적은 '비용 대비 혁신적인 성능 향상'을 달성하기 위함입니다.

메타의 최신 MTIA 로드맵 공개는 이러한 변화를 명확히 보여줍니다. 미래의 MTIA(MTIA 100, MTIA 200 등)는 이전 세대와 달리 GPU 및 AI XPU에 가깝게 설계되고 있습니다. 이는 아키텍처가 단순한 임베딩 조회 및 비교 기반에서 벗어나, LLM처럼 사용자 활동 예측(User Activity Prediction)이라는 토큰 예측과 유사한 작업을 수행하는 데 최적화되었기 때문입니다.

결론적으로, 메타는 MTIA를 통해 DLRM v3와 같은 생성형 추천 워크로드뿐만 아니라, GenAI 추론까지 한 번에 지원할 수 있는 통합 아키텍처를 구축함으로써 비용 효율성과 성능을 동시에 확보하려는 전략적 목표를 가지고 있습니다. 이는 R&R 트레이닝 및 추론의 근본적인 패러다임 전환을 의미합니다.

AI 자동 생성 콘텐츠

원문 바로가기

메타의 MTIA 컴퓨팅 엔진 로드맵 분석: 차세대 AI 인프라 전망

요약

핵심 포인트

댓글