AMD Intros Instinct MI350P Accelerator: CDNA 4 Comes to PCIe Cards

오늘 아침 AMD 는 AI 가속기인 Instinct MI350 시리즈의 새로운 구성원을 출시했습니다. 특히 흥미로운 제품은 PCIe 카드입니다. 거의 5 년 만에 AMD 의 첫 번째 Instinct PCIe 카드 제품으로, 새 MI350P 는 AMD 가 현재 세대의 가속기 아키텍처를 일반적인 PCIe 카드에 적용했습니다. 이를 통해 회사는 기존 서버 노드로 AI 하드웨어를 구매하지 않는 고객들을 대상으로 합니다. 즉: 온프레미스 AI 추론 (on premise AI inference) 을 수행하고 싶지만, 현재 서버 노드의 높은 열 및 전력 밀도를 지원할 수 없거나, 가속기를 기존 하드웨어와 통합하고 싶은 고객들입니다.

이를 달성하기 위해 AMD 는 MI350X 가속기의 하나를 가져와 절반으로 잘랐습니다. 결과적으로 계산 리소스가 반, 메모리가 반, 그리고 가장 중요한 것은 전력 소비가 약 절반으로 줄어든 카드가 되었습니다. 최종 결과는 CDNA 4 아키텍처의 모든 AI 기능을 제공하지만, 공기 냉각 PCIe 카드에 장착하기에 충분히 작고 전력 요구량이 적은 칩셋을 제공하는 축소된 카드입니다.

AMD Instinct MI350 시리즈 주요 사양 |
||
GPU |
MI350P |
MI350X |
Compute Units |
128 | 256 |
Matrix Cores |
512 | 1024 |
Peak Engine Clock |
2200MHz | 2200MHz |
Memory |
144GB HBM3E | 288GB HBM3E |
Memory Bandwidth |
4TB/sec (8Gbps x 4096-bits) | 8TB/sec (8Gbps x 8192-bits) |
Matrix Perf (MXFP8) |
2.3 PFLOPS | 4.6 PFLOPS |
I/O |
PCIe Gen5 x16 | PCIe Gen5 x16 7x Infinity Fabric (x16) |
TBP |
600W (Optional: 450W) | 1000W |
Form Factor |
PCIe CEM, 10.5-inch FHFL DS | OAM |
Architecture |
CDNA 4 | CDNA 4 |

PCIe 시장 공백 해결하기

고성능 서버 AI 가속기에 대한 수요가 지난 몇 년 동안 계속 증가해 왔습니다. 시장 선두인 NVIDIA 와 오랜 라이벌인 AMD 는 주로 노드 (node) 또는 최근에는 전체 랭크 (rack) 형태의 하드웨어를 제공하는 데 집중해 왔습니다. 그 결과, 우리 자신의 Patrick Kennedy 가 몇 주 전에 해당 주제를 논의한 서브스택 (substack) 포스트에서 지적한 바와 같이, 현재 세대의 제품에서 AMD 나 NVIDIA 는 고성능 서버 GPU 를 기반으로 PCIe 형식의 가속기를 출시하지 않았습니다. 두 회사는 모듈형 가속기를 계산 트레이 (compute trays) 와 랭크로 판매하며 최대한 빠르게 만들 수 있다면 그들을 생산하고 있습니다. 따라서 다른 것에 집중할 필요가 거의 없었습니다.

실제로, 대부분의 AI 가속기 수요는 현대 컴퓨팅 노드에 들어갈 수 있는 모듈형 (OAM/SXM) 가속기에 있습니다. 이러한 시스템은 고유 GPU 인터커넥트의 과도한 사용을 통해 가장 높은 하드웨어 밀도 및 최고의 스케일업과 스케일아웃 기능을 제공합니다. 하지만 이는 11kW 계산 노드의 GPU 를 수용할 수 없는 데이터 센터를 운영하거나 하드웨어가 필요한 고객들에게 어려움을 줍니다; 전체 AI 가속기 시장에서 공백을 남겼습니다.

지난 몇 년 동안, 두 회사는 각자의 워크스테이션 그래픽 GPU 를 기반으로 한 제품으로 이 공백을 메우려고 시도해 왔습니다. AMD 의 경우 Radeon AI Pro 시리즈입니다. 이러한 그래픽 기반 제품은 많은 AI 기능을 제공하지만 모든 것은 아닙니다. 특히 플래그십 서버 GPU 의 더 높은 성능이나 HBM 에 의해 부여된 중요한 메모리 용량 및 대역폭을 제공하지 않습니다. 따라서 이러한 그래픽 기반 제품은 PCIe 기반 가속기对一些需求的满足, 하지만 완벽한 대체품은 아닙니다.

2022 년 Instinct MI210 이후 처음, AMD 는 현재 세대 아키텍처를 기반으로 Instinct PCIe 카드를 출시하여 이 공백을 메우기 위해 노력하고 있습니다. 해당 제품의 핵심 아이디어는 고급 모듈형 부품과 동일한 수준의 AI 하드웨어에 접근할 수 있는 전통적인 서버 및 데이터 센터 고객에게 이를 제공하면서도, 쉽게 교체 및 업그레이드 가능한 폼 팩터로 제공하는 것입니다. 현재는 다소 니치 시장이지만, 컴퓨팅 랭크 밀도와 이에 따른 전력 및 냉각 요구사항이 기존 데이터 센터를 위한 문제점이 되면서 여전히 매우 관련성이 높습니다. 또한 AMD 에게 추가적인 보너스로, 경쟁사인 NVIDIA 는 아직 이 시장을 다루지 않고 (또는 다룰 예정이라고 명시하지도 않음) 있어, 해당 시장에서 즉시 선두주자가 될 수 있는 시장에 접근할 수 있습니다.

Instinct MI350P: 350X 의 절반, 전력의 절반

하드웨어 자체에 돌입하면 앞서 언급한 바와 같이, MI350P 는 AMD 의 플래그십 가속기인 MI350X 의 절반입니다. AMD 가 해당 제품을 처음 알렸을 때, 저는 PCIe 카드가 MI350X 가속기에 사용되지 않는 사양의 칩으로 재사용된 것으로 가정했습니다. 그러나 AMD 가 하드웨어에 대한 세부 정보를 보내자마자 현실은 훨씬 더 흥미로워졌습니다.

간단히 말하면, AMD 는 이 제품에 재사용된 MI350X 칩을 사용하지 않습니다. 대신, chiplets 의 사용을 활용하여 동일한 실리콘에서 작은 칩을 만들어 MI350P 전용으로 더 작은 칩을 제작하고 있습니다. MI350X 는 4 개의 가속기 복합 칩 (XCD) 이 적층된 각 I/O 데이 (IOD) 2 개로 구성되었으나 (총 8 XCD), MI350P 의 칩은 그 절반입니다. 즉, IOD 1 개와 XCD 4 개를 포함하며, MI350X 와 동일 클럭 속도로 동작하고 있으며, 최대 성능 수치에서는 AMD 의 모듈형 가속기의 절반 성능을 제공합니다.

IOD 의 감소는 메모리 용량 및 대역폭의 감소로 이어집니다. 8 개의 HBM3E 스택이 4 개로 줄어들어, MI350X 보다 절반인 144GB 의 HBM3E 메모리와 총 메모리 용량 4TB/초를 갖게 됩니다. 다시 말해, MI350P 는 Mi350X 의 거의 완벽한 스케일다운으로, 성능과 메모리 용량의 절반을 제공합니다.

문서상으로는 전력 소모만이 절반이 아닌 것으로 보입니다. MI350X 는 일반적인 보드 전력 (TBP) 등급이 1000W (MI355X 는 1400W) 인 반면, MI350P 는 600W 로 지정되었습니다. 표준화된 폼 팩터로서, 600W 는 PCIe CEM 규격 자체에서 정의한 한계치이며, AMD 는 규격이 허용하는 만큼 카드의 온도와 속도를 최대한 높게 설정했습니다. 또한 모든 서버가 600W PCIe 카드를 처리할 수 없기 때문에, AMD 는 전력 소모를 더욱 줄이기 위해 일부 성능을 희생하여 450W TBP 모드를 제공합니다.

물리적으로, 이 카드는 매우 표준적이고 규칙에 따라 설계된 FHFL (Full Height Full Length) 듀얼 슬롯 카드이며, 두 TBP 구성 모두에서 공기 냉각으로 설계되었습니다. 서버 카드로 전형적으로, 이는 서버 체이스 자체의 공기 흐름으로 냉각되도록 설계된 하나의 대형 히트싱크를 가진 완전히 패시브 쿨러 디자인입니다. 이 구성은 단일 서버 트레이에 최대 8 개의 카드를 설치할 수 있음을 의미합니다.

그러나 흥미롭게도 AMD 는 MI350P 에서 GPU 간 Infinity Fabric 링크를 어떤 형태로든 노출하지 않습니다. 그 결과, 멀티 카드 설정은 두 카드 간 통신을 위해 PCIe 버스 (PCIe Gen5 x16) 만 사용할 수 있습니다. 이는 MI350P 와 MI350X 의 비교에서 가장 큰 트레이드오프 중 하나로, 단일 카드의 메모리 풀보다 더 큰 AI 모델을 실행하는 것을 제한합니다. 최종 결과는 8 카드 설정이 단일 모델이 아닌 8 개의 모델을 실행하는 데 더 적합하다는 것입니다.

여러 모델에 대해 이야기하면 Instinct MI350 시리즈의 PCIe 버전은 또한 해당 시리즈의 파티셔닝 지원도 유지하고 있습니다. XCD 개수가 절반으로 줄어들어 제한이 4 개의 파티션으로 줄어듭니다. 그러나 CPX 구성은 MI350X 와 동일하게 1 개의 XCD 와 36GB 의 메모리 설정입니다.

마지막으로 카드의 전반적인 성능에 관해 말하면, AMD 는 MI350P 에 대해 피크 및 일반적인/제공된 성능 수치를 모두 공개한 흥미롭고 (환영하는) 단계를 취했습니다. 이는 MI350X 출시 시에는 하지 않은 것입니다.

AMD 는 제공된 성능 수치를 어떻게 도출했는지 상세히 설명하지는 않지만, 이들은 실제 세계의 숫자일 것 같습니다 - 아키텍처 효율성과 카드의 모든 트랜지스터를 600W 전력 예산으로 최대한 활용하지 못하는 성능 영향이 결합된 결과입니다. 특히 AMD 의 수치들은 GPU 처리량과 메모리 대역폭 모두에 영향을 미친다고 명시하고 있으며, MXFP6 성능은 특히 카드의 피크/이론적 성능보다 훨씬 낮습니다. 전반적으로 이는 AMD 에서 환영할 만한 공개이며, 앞으로 유사한 공개를 볼 수 있을 것입니다.

최종 말

지난 몇 년 동안 AMD 는 데이터 센터 GPU 시장에서 큰 성과를 거두고 있습니다. NVIDIA 라는 시장 리더에 비해 여전히 뒤처져 있지만, MI300 시리즈와 이제 MI350 시리즈 가속기의 성공 (및 높은 수요) 덕분에 AMD 의 데이터 센터 GPU 수익은 기하급수적으로 성장하고 있습니다. 이 성장 기간 동안 고전적인 PCIe 형식 시장은 크게 불충분하게 서비스를 제공해 왔지만, AMD 는 Instinct MI350P 를 통해 이를 해결하기 시작했습니다. 이는 거의 5 년 만에 첫 번째 Instinct PCIe 가속기입니다.

MI350X 의 절반 수준인 PCIe 카드에서 MI350P 는 자체적으로 독특한 제품입니다. 성능이 AMD 의 플래그십 가속기와 완전히 같지는 않지만, 여전히 PCIe 카드의 한계로 AMD 가 압출할 수 있는 만큼의 성능을 제공합니다 - 그리고 CDNA 4 아키텍처의 모든 기능을 제공하면서 이를 수행합니다. AMD 가 이제 PCIe 카드에 최신 세대의 서버 등급 가속기를 제공하는 유일한 GPU 벤더가 된다는 사실과 함께, 이번 세대에는 너무 불충분하게 서비스를 제공해 온 시장 섹터를 마침내 해결함으로써 AMD 는 더 큰 성공을 위한 준비를 한 것이라고 말할 수 있습니다.

AMD Intros Instinct MI350P Accelerator: CDNA 4 Comes to PCIe Cards

요약

핵심 포인트

PCIe 시장 공백 해결하기

Instinct MI350P: 350X 의 절반, 전력의 절반

최종 말

댓글