TNP헤드라인2026. 05. 09. 10:45

Sometimes, Air Is The Only Way For AI Systems To Keep Their Cool

요약

본 기사는 데이터센터의 물리적 제약과 비용 문제로 인해 생성형 AI 시스템을 현지(on-premise)에서 운영해야 하는 기업들, 특히 금융 서비스 및 제조업 분야에 초점을 맞춥니다. 이러한 환경에서는 대규모 훈련 노드가 필요하지 않고 추론 작업만 수행하는 경우가 많습니다. 이에 AMD는 MI350X의 반 용량 버전인 MI350P를 출시했는데, 이는 CDNA 4 아키텍처의 이점을 유지하면서도 에어 냉각이 가능한 소형 패키지 형태로 설계되었습니다.

핵심 포인트

AI 시스템을 현지에서 운영해야 하는 기업(금융, 제조업 등)은 대규모 클라우드 인프라에 의존하기 어렵습니다.
AMD MI350P는 CDNA 4 아키텍처의 이점을 유지하면서도 에어 냉각이 가능하도록 설계된 반 용량 GPU입니다.
MI350P는 약 200억~250억 파라미터 규모의 모델을 구동하는 데 최적화되어 있습니다.
전력 효율성이 중요한 환경에서는 MI350P를 최대 600W에서 450W로 낮춰 사용함으로써 성능 저하를 최소화할 수 있습니다.

Sometimes, Air Is The Only Way For AI Systems To Keep Their Cool

모든 데이터센터가 액체 냉각을 지원하지는 않으며, 특히 주요 대도시 내에 위치하여 법적 또는 실용적으로 시스템을 한 곳에 두어야 하는 기업들은 생성형 AI 모델을 구축하고 추론에 활용하려는 생산 시스템과 AI 시스템을 분리할 수 없습니다.

또한 많은 기업은 고전적인 머신러닝과 함께 생성형 AI를 수행하며, 많은 경우 추론을 위해 랭크스케일 컴퓨팅 노드를 필요로 하지 않습니다. 훈련을 위해 랭크스케일 노드가 필요한 경우 – 그리고 종종 그렇게 –, 그들은 대형 클라우드 빌더 또는 네오클라우드에서 임대할 수 있습니다.

생산 추론 작업과 소형 모델 훈련에 대해 현지 유지가 필요한 것은 헤지 펀드, 알고리즘 트레이딩 회사 및 기타 금융 서비스 기업들이 특히 그렇습니다. 이들은 머신러닝 및 상대적으로 작은 생성형 AI 모델을 사용하여 시장 상황을 분석하고 인간이 처리 속도 및 반사 시간을 가지고는 수행할 수 없는 초당 결정들을 내어 수익을 창출합니다. FSI(금융 서비스) 기업이 적용되는 원칙은 제조업, 유통업, 생명과학 및 기타 산업에도 동일하게 적용됩니다. 그들은 145 킬로와트를 소모하는 단일 랭크를 설치하고 냉각할 수 있는 데이터센터를 가지고 있지 않습니다. 일반 목적 인프라와 마찬가지로 AI 시스템을 분산해야 하며, 이는 비효율성을 초래합니다.

이 모든 것은 여전히 공기 냉각 GPU 시스템에 대한 수요가 있음을 의미하며, 저는 여름에 여기에서 자세히 논의했습니다. AMD 는 Instinct MI350 시리즈 GPU의 빈칸을 검색하여 표준 서버 형식으로 플러그할 수 있는 리트로 PCI-Express 형식의 반 용량 버전인 MI350X를 개발했습니다. 새로운 카드는 MI350P로 불리며, 예상대로 현재 이용 가능합니다.

MI350 시리즈의 미래 버전이 있을 때 처음 들었을 때, 이는 MI350X 와 MI355X 부품에서 2.2 GHz 의 일정한 클럭 속도로 작동하며 HBM3E 메모리 스택 중 절반만 작동하는 것으로부터 재사용될 것이라고 가정했습니다. AMD 가 이분 분류 (bin sort) 를 수행한다면, 판매되는 컴퓨트 코어와 HBM 메모리 용량의 분포를 기대할 수 있었을 것입니다. 그러나 MI350P 의 용량은 MI350X 가 제공하는 용량의 정확히 절반입니다. 그리고 그 이유는 MI350P 가 더 작은 소켓에 반쪽의 구성 요소가 있는 칩 패키지이기 때문입니다. 이는 CDNA 4 아키텍처의 모든 이점을 제공하면서도 기기를 에어 쿨링으로 사용할 수 있도록 하기 위해 절대적으로 의도적으로 수행되었습니다. 따라서 그것은 반쪽 패키지이지, 반쪽 댕 (half dud) 이 아닙니다. 이것이 어떻게 보이는지:

MI350 시리즈 라인업 전반에 공통된 중요한 기능은 HBM3E 메모리를 12 개의 고스택으로 사용하는 것뿐만 아니라 OCP-FP8, MXFP6, MXFP4 데이터 형식을 지원하는 CDNA 4 컴퓨트 복합체를 포함합니다. 이는 GPU 의 훈련 및 추론을 위한 유효 트루스피트를 높입니다.

MI350P 의 스펙은 다음과 같습니다:

이러한 스펙에 흥미로운 점 (그리고 OAM 형식을 사용하여 메모리 일관성을 제공하는 MI300 시리즈와 MI350 시리즈 장치와 비교하여) 는 AMD 가 각 정밀도에서 제공된 실제 flops 와 피크 이론적 flops 를 모두 표시하고 있다는 것입니다. 우리는 AMD 가 사용하는 벤치마크 테스트를 알지 못하지만, 이 회사가 줄어든 MI350P 카드에서 기대할 수 있는 것에 대해 솔직합니다.

이러한 테스트가 무엇이든 간에, MI350P 는 피크 대역폭 4 TB/sec 의 90% 를 제공할 수 있었습니다. 컴퓨팅에 관해 말하면, 16-bit 와 8-bit 수학에서, 이 테스트에서는 somewhere between 58 percent 와 66 percent 의 피크 성능이 제공되고 있으며, MXFP6 은 또한 58%를 제공하고 있지만, MXFP4 는 피크의 50% 만 제공합니다.

MI350P 프레젠테이션에서도 흥미로운 점은 AMD 가 MI350X 와 MI355X GPU 를 기반으로 한 에어 쿨링 시스템 보드뿐만 아니라 회사의 플래그십 GPU 나 Epyc GPU 와 Radeon AI Pro 카드에서 고전 머신러닝 및 GenAI 추론을 실행하는 것과 어떻게 대비되는지 솔직하게 설명하고 있다는 것입니다. 메모리와 컴퓨팅에 기반한 제안된 AI 모델 크기 제한도 포함됩니다:

MI350P 의 최적의 사용처는 약 200 억~250 억 파라미터를 가진 모델입니다. 이는 기업에서 다양한 데이터 처리 및 거래 처리를 보조하는 데 일반적으로 사용되는 합리적인 크기의 모델입니다.

저는 컴퓨팅 엔진의 광범위한 역사적 관점을 선호합니다. 그 목적에 따라 아래에는 MI25 가 2017 년 여름에 출시된 이래 전체 Instinct GPU 라인업을 보여주는 거대한 표가 있습니다.

MI350P 의 흥미로운 점은 많은 열을 견딜 수 없는 환경이나 서버 케이스에서 사용 가능하게 속도를 낮출 수 있다는 것입니다. 위 표에 표시된 MI350P 의 최고 성능 사양은 GPU 를 2.2 GHz 에서 실행하고 시스템이 최대 600 와트의 열을 방출할 수 있다고 가정합니다. 그러나 MI350P 를 450 와트로 낮출 수 있는 방법이 있으며, 이는 전력의 25% 감소입니다. 저는 이것이 아마도 성능의 10~~15% 감소일 것이라고 생각합니다. 즉, 클럭 속도는 약 1.9 GHz~~2 GHz 로만 떨어질 것입니다. 메모리 대역폭에 민감한 워크로드에서는 메모리 속도가 (저는 알 수 있는 한) 낮춰지지 않고 용량이 제한되지 않기 때문에 실제 실용 성능의 감소는 10% 미만일 수 있습니다.

가격/성능/와트 효율이 더 나은 것이 필요한 상황으로 인해, MI350P 의 목표 고객 중 상당수가 450 와트 다운그레이드를 선택할 것이라고 예상하는 것은 합리적이며, 또한 해당 장치의 목록 가격에서 협상 가격보다 약 10% 저렴하게 지불하고 싶어 할 것이라고 예상하는 것도 합리적입니다.

OEM 과 ODM 의 일반적인 후보들은 MI350P 를 기반으로 시스템을 만들 준비가 되어 있습니다. 아마도 하나의 노드에서 이 MI350P 가 4 개 또는 8 개를 호스트 프로세서로 사용하는 'Genoa' Epyc 9004 나 'Turin' Epyc 9005 CPU 가 있을 것입니다. Dell 은 MI350P 를 사용하여 PowerEdge XE7745 와 PowerEdge R7725 랭 서버를 준비하고 있으며, Hewlett Packard Enterprise 는 ProLiant DL385 및 385a Gen 11 서버와 ProLiant DL345 Gen 12 서버에 추가했습니다. Lenovo 는 ThinkSystem SR675/I v3 기계를 MI350P 를 추가하고 있으며, Cisco Systems 는 C845a M8, X Series 580p, UC245 M8 서버에 MI350P 를 포함시켰습니다. Supermicro 는 OEM 을 AS -5126GS-TNRT, AS -5126GS-TNRT2, AS -2026HS-TN, AS -2116CS-TN 기계로 마무리했습니다. 저는 이것이 모든 GPU 와 마찬가지로 오늘날처럼 희귀할 것이라고 강력히 의심합니다.

MI350P 의 가격 공표는 없으나, MI350X 의 가격의 절반 미만일 것으로 예상됩니다. MI350X 는 GPU 간 및 CPU 로의 메모리 일관성을 지원하지만, MI350P 는 GPU 간 두 방향 일관성조차 갖지 못합니다. MI350P 는 절대적으로 그리고 오직 독립형이며, 머신에 몇 대를 넣더라도 마찬가지입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Sometimes, Air Is The Only Way For AI Systems To Keep Their Cool

요약

핵심 포인트

Sometimes, Air Is The Only Way For AI Systems To Keep Their Cool

댓글