‘GPU 만능 시대’의 종말… AMD·토요타시스템즈, AI 워크로드 최적화 강조

출처 1: https://ascii.jp/elem/000/004/411/4411093/

“무엇이든 GPU” 시대의 종언, AMD와 도요타 시스템즈가 지적하는 AI 워크로드에 대한 이해

“何でもGPU”時代の終焉　AMDとトヨタシステムズが指摘する「AIワークロードへの理解」

뉴스 주요 내용 요약
• AMD는 AI 인프라 구축의 핵심으로 자사 워크로드 이해와 프로파일링의 중요성을 강조
• 토요타시스템즈는 워크로드 분석을 통해 AMD EPYC를 도입했으며, 일부 작업에서 최대 3배 성능 향상을 확인
• AMD는 데이터센터 사례를 통해 서버 수 최대 88%, 전력 소비 최대 70%, 3년 TCO 최대 71% 절감 효과를 제시
• 에이전틱 AI 확산에 따라 CPU 역할이 확대되며 CPU와 GPU 비율이 기존 1:4에서 1:1 수준으로 변화할 것으로 전망
• AMD는 EPYC CPU, Instinct GPU, Helios 플랫폼을 앞세워 다양한 AI 워크로드 대응 전략을 소개

Interop Tokyo 2026 AMD 기조연설 리포트

AMD가 일본의 인프라 관계자들이 모이는 ‘Interop Tokyo’에서 AI 전략을 발표한 것도 올해로 3년 연속이 됐습니다. 일본 AMD 대표이사 사장인 존 로보텀은 “AI 인프라 분야에서 AMD의 인지도가 높아졌다는 이야기를 고객들로부터 듣는 경우가 늘고 있다”고 말했습니다.

일본 AMD 대표이사 사장 존 로보톰(John Robotham) 씨

이번 기조연설에는 AMD 엔터프라이즈 비즈니스 그룹의 코퍼레이트 VP인 데릭 디커가 연사로 나섰습니다. 또한 토요타시스템즈에서 시뮬레이션 인프라를 담당하는 코시도 켄지가 게스트로 참석해 AI 인프라 비용 증가 문제에 대해 “자사 워크로드를 이해하는 것이 중요하다”고 강조했습니다.

4대 핵심 전략을 통해 업계 과제를 해결

먼저 디커는 AMD의 4가지 전략 축에 대해 설명했습니다.

AMD 코퍼레이트 VP 엔터프라이즈 비즈니스 그룹 데렉 디커(Derek Dicker) 씨

첫 번째는 모든 전략의 기반이 되는 ‘실리콘 기술’입니다. AMD는 지금까지 고성능 실리콘을 개발하고 이를 첨단 패키징 기술과 결합해 제품으로 구현해 왔습니다. 앞으로도 CPU, GPU, 네트워킹, FPGA를 중심으로 컴퓨팅 기술 리더십을 확대해 나갈 계획입니다.

두 번째는 ‘데이터센터’입니다. 해당 사업은 호조를 보이고 있으며 2026년 1분기 매출은 100억 달러를 돌파했습니다. 클라우드부터 엔터프라이즈까지 폭넓게 지원하며, 2026년 하반기에는 랙 스케일 아키텍처도 도입할 예정입니다.

세 번째는 ‘개방형 플랫폼’입니다. 소프트웨어, 부품, 시스템 간 상호 호환성을 제공하며 “모든 계층에서 개방형 혁신을 실현할 수 있는 기업은 AMD뿐”이라고 자신감을 드러냈습니다.

마지막은 ‘모든 곳에서 AI를 가속하는 것’입니다. 데이터센터뿐 아니라 최근 주목받는 피지컬 AI까지 포함해 다양한 환경에서 AI 활용을 촉진하는 솔루션을 제공할 계획입니다.

AMD의 4가지 포커스 에리어

이러한 전략을 바탕으로 고객이 직면한 산업별 과제를 파트너와 함께 해결하는 것이 AMD AI 인프라 전략의 핵심입니다.

CPU 절반 이상을 AMD로 교체한 토요타시스템즈

이어 올 토요타의 시뮬레이션 인프라 구축과 운영을 담당하는 토요타시스템즈의 코시도 켄지가 실제 현장에서 겪고 있는 과제를 소개했습니다. 그가 가장 먼저 언급한 것은 시뮬레이션 활용 산업에서 일어나고 있는 변화입니다.

자동차 업계에서는 개발 대상 차량이 다양해지고 국가별 규제도 복잡해지고 있습니다. 이에 따라 단일 현상을 분석하는 ‘단일 해석’의 규모는 커지고 있으며, 여러 현상의 상호작용을 고려하는 ‘연성 해석’에서는 요구되는 하드웨어 사양 역시 복잡해지고 있습니다.

또한 파라메트릭 스터디처럼 소규모 계산을 반복하는 방식에서는 일시적으로 수만 개 코어 규모의 연산 자원이 필요해지며, 그 결과를 머신러닝에 활용하기 위해 전용 GPU 환경이 필요한 경우도 있다고 설명했습니다.

도요타 시스템즈 시뮬레이션 서비스부 HPC 인프라G GM 겸 시뮬레이션 R&D부 Expert of Simulation 코토 켄지(Koto Kenji) 씨

코시도는 이러한 변화 속에서 두 가지 문제를 지적했습니다.

첫 번째는 ‘연산 자원의 낭비’입니다. 서로 다른 특성을 가진 해석을 동시에 수행하는 연성 해석에서는 동일한 환경에서 실행해야 합니다. 예를 들어 8코어 작업과 256코어 작업을 함께 수행하면 8코어 작업이 진행되는 동안 248개의 코어가 대기 상태가 될 수 있습니다. 그는 “하드웨어 특성을 고려하지 않은 해석이 비용 증가로 이어지고 있다”고 지적했습니다.

하드웨어 사양이 고려되지 않은 해석이 증가하고 있음

두 번째는 ‘연산 자원 조달’ 문제입니다. 해석 규모 변화가 매우 크기 때문에 온프레미스 환경만으로는 자원 낭비가 발생하고, 클라우드에서는 필요한 시점에 충분한 자원을 확보할 수 있다는 보장이 없다는 설명입니다. 자원 최적화를 위해 코시도가 강조한 것은 ‘해석 프로파일링 확보’입니다. 이는 시뮬레이션뿐 아니라 AI에서도 중요하다고 설명했습니다.

“내부 동작을 이해하지 못하면 문제 지점을 파악할 수 없으며 최적의 환경도 구축할 수 없다. 요구되는 사양은 워크로드 특성에 따라 달라지며 CPU 하나만 보더라도 제조사별 특성이 다르기 때문에 선택해야 하는 SKU도 달라진다.”

실제 사례로 특정 해석 작업에서 디스크 I/O 증가 원인을 프로파일링한 결과 SWAP이 자주 발생하지만 사용량은 많지 않다는 점을 확인했고, 단순 메모리 증설만으로 문제를 해결할 수 있었다고 설명했습니다.

스펙만 봐서는 해결에 이르지 못함

토요타는 원래 인텔 CPU를 중심으로 사용해 왔지만 프로파일링 과정에서 AMD CPU가 더 적합한 경우가 있다는 사실을 확인했습니다. 실제로 AMD CPU로 교체한 것만으로 성능이 3배 향상된 사례도 있었다고 밝혔습니다. “현재는 전체 CPU의 절반 이상이 AMD로 교체됐다. 결국 중요한 것은 어떤 제품이 우리 업무에 가장 적합한지 파악하는 것이다.”

디커 역시 이에 공감하며 “시간이 걸리더라도 먼저 자사 워크로드를 이해하는 것이 중요하다”고 강조했습니다.

서버 수를 최대 88% 줄인 데이터센터 사례

모든 워크로드에 대응하는 AMD의 AI 포트폴리오

디커 역시 코시도의 의견에 공감하며, “시간이 걸리더라도 우선 자사 워크로드를 이해하는 것이 중요하다”고 강조했습니다.

예시로 소개된 것은 AMD가 공동 조사한 한 데이터센터 사례입니다. 조사 결과를 바탕으로 「Intel Xeon Platinum 8280」을 탑재한 2소켓 서버를 「AMD EPYC 9965」를 탑재한 2소켓 서버로 교체한 결과, 최대 88%의 서버 수 감소와 최대 70%의 전력 소비 절감, 3년 기준 최대 71%의 총소유비용(TCO) 절감 효과를 달성했다고 밝혔습니다.

디커는 “물론 모든 데이터센터가 동일한 결과를 얻을 수 있는 것은 아닙니다. 그러나 AMD는 다양한 데이터센터의 프로파일링을 수행해 운영 효율을 높이고, AI 인프라를 위한 공간을 확보할 수 있도록 지원할 것입니다”라고 말했습니다.

PCIe를 지원하는 Instinct MI350P는 엔터프라이즈 AI 워크로드에 이상적인 제품이라고 AMD는 설명했습니다.

또한 언급된 것은 기업의 AI 활용이 챗봇 중심에서 에이전틱 AI 중심으로 변화하면서 발생하는 ‘데이터센터의 변화’입니다.

지금까지 AI 인프라에서 CPU의 역할은 주로 GPU 클러스터를 관리하는 데 집중돼 있었습니다. 그러나 에이전틱 AI 시대가 도래하면서 CPU의 역할은 데이터가 위치한 곳에서의 SLM 추론, 에이전틱 AI의 데이터 제어, 각종 도구 실행까지 확대되고 있습니다. 그 결과 과거에는 1대 4 수준이었던 CPU와 GPU의 비율이 점차 1대 1에 가까워질 것으로 전망됐습니다.

이러한 흐름 속에서 AMD의 데이터센터용 CPU인 EPYC 시리즈의 중요성도 더욱 커질 것으로 예상됩니다. 디커는 “CPU 역할의 변화는 데이터센터 구축 방식에도 영향을 미칩니다. 결국 기업이 자사 워크로드를 얼마나 잘 이해하느냐가 AMD의 기회와 직결됩니다”라고 설명했습니다.

물론 AMD는 GPU 사업도 지속적으로 강화할 계획입니다. AMD의 AI 인프라용 GPU인 Instinct 시리즈 최신 포트폴리오에는 엔터프라이즈 AI용 MI350P, 소버린 AI 및 HPC용 MI430X, 그리고 AI 학습 및 추론용 MI455X가 포함돼 있습니다.

86인치 대형 모니터를 활용한 Helios 가상 전시

이처럼 AMD는 다양한 AI 인프라 수요에 대응하기 위해 제품군 확대를 추진하고 있습니다. 디커는 마지막으로 “AMD가 목표로 하는 것은 고객이 자신의 워크로드를 이해하고, 그에 맞는 제품을 적절하게 활용할 수 있도록 돕는 것”이라고 강조하며 발표를 마무리했습니다.

원문 출처: ASCII.jp

※ 해당 기사는 퀘이사존 공식 기사가 아닌 해외 뉴스/기사를 번역한 기사입니다.
퀘이사존 견해와 주관은 포함되어 있지 않습니다.

‘GPU 만능 시대’의 종말… AMD·토요타시스템즈, AI 워크로드 최적화 강조

요약

핵심 포인트

댓글