본문으로 건너뛰기

© 2026 Molayo

TNP헤드라인2026. 05. 09. 10:45

Sometimes, Air Is The Only Way For AI Systems To Keep Their Cool

요약

본 기사는 데이터센터의 물리적 제약과 비용 문제로 인해 생성형 AI 시스템을 현지(on-premise)에서 운영해야 하는 기업들, 특히 금융 서비스 및 제조업 분야에 초점을 맞춥니다. 이러한 환경에서는 대규모 훈련 노드가 필요하지 않고 추론 작업만 수행하는 경우가 많습니다. 이에 AMD는 MI350X의 반 용량 버전인 MI350P를 출시했는데, 이는 CDNA 4 아키텍처의 이점을 유지하면서도 에어 냉각이 가능한 소형 패키지 형태로 설계되었습니다.

핵심 포인트

  • AI 시스템을 현지에서 운영해야 하는 기업(금융, 제조업 등)은 대규모 클라우드 인프라에 의존하기 어렵습니다.
  • AMD MI350P는 CDNA 4 아키텍처의 이점을 유지하면서도 에어 냉각이 가능하도록 설계된 반 용량 GPU입니다.
  • MI350P는 약 200억~250억 파라미터 규모의 모델을 구동하는 데 최적화되어 있습니다.
  • 전력 효율성이 중요한 환경에서는 MI350P를 최대 600W에서 450W로 낮춰 사용함으로써 성능 저하를 최소화할 수 있습니다.

Sometimes, Air Is The Only Way For AI Systems To Keep Their Cool

모든 데이터센터가 액체 냉각을 지원하지는 않으며, 특히 주요 대도시 내에 위치하여 법적 또는 실용적으로 시스템을 한 곳에 두어야 하는 기업들은 생성형 AI 모델을 구축하고 추론에 활용하려는 생산 시스템과 AI 시스템을 분리할 수 없습니다.

또한 많은 기업은 고전적인 머신러닝과 함께 생성형 AI를 수행하며, 많은 경우 추론을 위해 랭크스케일 컴퓨팅 노드를 필요로 하지 않습니다. 훈련을 위해 랭크스케일 노드가 필요한 경우 – 그리고 종종 그렇게 –, 그들은 대형 클라우드 빌더 또는 네오클라우드에서 임대할 수 있습니다.

생산 추론 작업과 소형 모델 훈련에 대해 현지 유지가 필요한 것은 헤지 펀드, 알고리즘 트레이딩 회사 및 기타 금융 서비스 기업들이 특히 그렇습니다. 이들은 머신러닝 및 상대적으로 작은 생성형 AI 모델을 사용하여 시장 상황을 분석하고 인간이 처리 속도 및 반사 시간을 가지고는 수행할 수 없는 초당 결정들을 내어 수익을 창출합니다. FSI(금융 서비스) 기업이 적용되는 원칙은 제조업, 유통업, 생명과학 및 기타 산업에도 동일하게 적용됩니다. 그들은 145 킬로와트를 소모하는 단일 랭크를 설치하고 냉각할 수 있는 데이터센터를 가지고 있지 않습니다. 일반 목적 인프라와 마찬가지로 AI 시스템을 분산해야 하며, 이는 비효율성을 초래합니다.

이 모든 것은 여전히 공기 냉각 GPU 시스템에 대한 수요가 있음을 의미하며, 저는 여름에 여기에서 자세히 논의했습니다. AMD 는 Instinct MI350 시리즈 GPU의 빈칸을 검색하여 표준 서버 형식으로 플러그할 수 있는 리트로 PCI-Express 형식의 반 용량 버전인 MI350X를 개발했습니다. 새로운 카드는 MI350P로 불리며, 예상대로 현재 이용 가능합니다.

MI350 시리즈의 미래 버전이 있을 때 처음 들었을 때, 이는 MI350X 와 MI355X 부품에서 2.2 GHz 의 일정한 클럭 속도로 작동하며 HBM3E 메모리 스택 중 절반만 작동하는 것으로부터 재사용될 것이라고 가정했습니다. AMD 가 이분 분류 (bin sort) 를 수행한다면, 판매되는 컴퓨트 코어와 HBM 메모리 용량의 분포를 기대할 수 있었을 것입니다. 그러나 MI350P 의 용량은 MI350X 가 제공하는 용량의 정확히 절반입니다. 그리고 그 이유는 MI350P 가 더 작은 소켓에 반쪽의 구성 요소가 있는 칩 패키지이기 때문입니다. 이는 CDNA 4 아키텍처의 모든 이점을 제공하면서도 기기를 에어 쿨링으로 사용할 수 있도록 하기 위해 절대적으로 의도적으로 수행되었습니다. 따라서 그것은 반쪽 패키지이지, 반쪽 댕 (half dud) 이 아닙니다. 이것이 어떻게 보이는지:

MI350 시리즈 라인업 전반에 공통된 중요한 기능은 HBM3E 메모리를 12 개의 고스택으로 사용하는 것뿐만 아니라 OCP-FP8, MXFP6, MXFP4 데이터 형식을 지원하는 CDNA 4 컴퓨트 복합체를 포함합니다. 이는 GPU 의 훈련 및 추론을 위한 유효 트루스피트를 높입니다.

MI350P 의 스펙은 다음과 같습니다:

이러한 스펙에 흥미로운 점 (그리고 OAM 형식을 사용하여 메모리 일관성을 제공하는 MI300 시리즈와 MI350 시리즈 장치와 비교하여) 는 AMD 가 각 정밀도에서 제공된 실제 flops 와 피크 이론적 flops 를 모두 표시하고 있다는 것입니다. 우리는 AMD 가 사용하는 벤치마크 테스트를 알지 못하지만, 이 회사가 줄어든 MI350P 카드에서 기대할 수 있는 것에 대해 솔직합니다.

이러한 테스트가 무엇이든 간에, MI350P 는 피크 대역폭 4 TB/sec 의 90% 를 제공할 수 있었습니다. 컴퓨팅에 관해 말하면, 16-bit 와 8-bit 수학에서, 이 테스트에서는 somewhere between 58 percent 와 66 percent 의 피크 성능이 제공되고 있으며, MXFP6 은 또한 58%를 제공하고 있지만, MXFP4 는 피크의 50% 만 제공합니다.

MI350P 프레젠테이션에서도 흥미로운 점은 AMD 가 MI350X 와 MI355X GPU 를 기반으로 한 에어 쿨링 시스템 보드뿐만 아니라 회사의 플래그십 GPU 나 Epyc GPU 와 Radeon AI Pro 카드에서 고전 머신러닝 및 GenAI 추론을 실행하는 것과 어떻게 대비되는지 솔직하게 설명하고 있다는 것입니다. 메모리와 컴퓨팅에 기반한 제안된 AI 모델 크기 제한도 포함됩니다:

MI350P 의 최적의 사용처는 약 200 억~250 억 파라미터를 가진 모델입니다. 이는 기업에서 다양한 데이터 처리 및 거래 처리를 보조하는 데 일반적으로 사용되는 합리적인 크기의 모델입니다.

저는 컴퓨팅 엔진의 광범위한 역사적 관점을 선호합니다. 그 목적에 따라 아래에는 MI25 가 2017 년 여름에 출시된 이래 전체 Instinct GPU 라인업을 보여주는 거대한 표가 있습니다.

MI350P 의 흥미로운 점은 많은 열을 견딜 수 없는 환경이나 서버 케이스에서 사용 가능하게 속도를 낮출 수 있다는 것입니다. 위 표에 표시된 MI350P 의 최고 성능 사양은 GPU 를 2.2 GHz 에서 실행하고 시스템이 최대 600 와트의 열을 방출할 수 있다고 가정합니다. 그러나 MI350P 를 450 와트로 낮출 수 있는 방법이 있으며, 이는 전력의 25% 감소입니다. 저는 이것이 아마도 성능의 1015% 감소일 것이라고 생각합니다. 즉, 클럭 속도는 약 1.9 GHz2 GHz 로만 떨어질 것입니다. 메모리 대역폭에 민감한 워크로드에서는 메모리 속도가 (저는 알 수 있는 한) 낮춰지지 않고 용량이 제한되지 않기 때문에 실제 실용 성능의 감소는 10% 미만일 수 있습니다.

가격/성능/와트 효율이 더 나은 것이 필요한 상황으로 인해, MI350P 의 목표 고객 중 상당수가 450 와트 다운그레이드를 선택할 것이라고 예상하는 것은 합리적이며, 또한 해당 장치의 목록 가격에서 협상 가격보다 약 10% 저렴하게 지불하고 싶어 할 것이라고 예상하는 것도 합리적입니다.

OEM 과 ODM 의 일반적인 후보들은 MI350P 를 기반으로 시스템을 만들 준비가 되어 있습니다. 아마도 하나의 노드에서 이 MI350P 가 4 개 또는 8 개를 호스트 프로세서로 사용하는 'Genoa' Epyc 9004 나 'Turin' Epyc 9005 CPU 가 있을 것입니다. Dell 은 MI350P 를 사용하여 PowerEdge XE7745 와 PowerEdge R7725 랭 서버를 준비하고 있으며, Hewlett Packard Enterprise 는 ProLiant DL385 및 385a Gen 11 서버와 ProLiant DL345 Gen 12 서버에 추가했습니다. Lenovo 는 ThinkSystem SR675/I v3 기계를 MI350P 를 추가하고 있으며, Cisco Systems 는 C845a M8, X Series 580p, UC245 M8 서버에 MI350P 를 포함시켰습니다. Supermicro 는 OEM 을 AS -5126GS-TNRT, AS -5126GS-TNRT2, AS -2026HS-TN, AS -2116CS-TN 기계로 마무리했습니다. 저는 이것이 모든 GPU 와 마찬가지로 오늘날처럼 희귀할 것이라고 강력히 의심합니다.

MI350P 의 가격 공표는 없으나, MI350X 의 가격의 절반 미만일 것으로 예상됩니다. MI350X 는 GPU 간 및 CPU 로의 메모리 일관성을 지원하지만, MI350P 는 GPU 간 두 방향 일관성조차 갖지 못합니다. MI350P 는 절대적으로 그리고 오직 독립형이며, 머신에 몇 대를 넣더라도 마찬가지입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 The Next Platform의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0