로컬 에이전트 컴퓨팅(Local Agentic Computing)의 부상과 냉혹한 현실: 상승하는 DRAM 가격 — RTX Spark 및 - Insights | Molayo

이번 주 Computex 2026에서 우리는 Nvidia가 RTX Spark를 공개하는 것을 보았으며, 지난달 AMD는 Strix Halo APU의 리프레시 버전으로 지원되는 통합 메모리(Unified Memory)를 192GB까지 높이고 해당 풀(Pool) 중 최대 160GB를 VRAM으로 주소 지정할 수 있는 Ryzen AI Max 400 "Gorgon Halo" 라인업을 상세히 설명했습니다. AMD는 플래그십인 Ryzen AI Max+ PRO 495를 3,000억 개의 파라미터(Parameter)를 가진 언어 모델을 로컬에서 실행할 수 있는 최초의 x86 클라이언트 프로세서로 설명하며, 여러 AI 에이전트(AI Agents)를 동시에 메모리에 상주시켜야 하는 사용 사례를 위해 이 플랫폼을 제안하고 있습니다.

Gorgon Halo 시장은 Computex 2026에서 데뷔한 Nvidia의 RTX Spark와 같은 다른 칩들과 직접적으로 공유될 가능성이 높습니다. RTX Spark 또한 온디바이스 에이전트 컴퓨팅(On-device Agentic Computing) 장치로 포지셔닝되어 있습니다. 로컬 AI 컴퓨팅이 많은 양의 온디바이스 RAM을 요구함에 따라, 이는 장치 제조사들에게 어려운 문제를 제기하고 있습니다.

DRAM 계약 가격은 TrendForce가 1분기에 기록한 90%~95%의 기록적인 급등에 이어, 이번 분기에 58%에서 63% 추가 상승할 것으로 예측됩니다. 또한 Nvidia는 메모리 공급 문제를 이유로 DGX Spark 데스크톱의 가격을 3,999달러에서 4,699달러로 인상했습니다. 그렇다면 접근 가능한 로컬 AI 컴퓨팅이라는 꿈은 어떻게 될까요?

DRAM 공급 압박

로컬 AI PC는 얼마나 많은 메모리를 탑재하느냐에 따라 정의되는 카테고리가 되었으며, 메모리 비용이 그 어느 때보다 높은 시기에 메모리 용량을 확장하고 있습니다. AMD의 세 가지 Gorgon Halo SKU는 기존 Ryzen AI Max 300 부품과 동일한 Zen 5 코어, RDNA 3.5 그래픽, XDNA 2 NPU를 재사용하며, Max+ PRO 495는 5.2 GHz로 100 MHz의 부스트 클록(Boost-clock) 상승, 40개의 컴퓨팅 유닛(Compute-unit)을 갖춘 Radeon 8065S, 그리고 55 TOPS NPU를 탑재합니다.

메모리 용량은 Strix Halo의 상한선이었던 128GB에서 50% 증가했습니다. 유출된 PassMark 항목에 따르면 HP 테스트 보드에서 8개의 24GB SK hynix LPDDR5X 패키지를 사용하여 192GB 수치를 구현한 것으로 나타났으나, AMD는 아직 이를 확인하지 않았습니다. Asus, HP, Lenovo의 파트너 시스템은 2026년 3분기에 출시될 예정입니다.

Nvidia와 AMD가 RTX Spark 및 Gorgon Halo 라인업과 같은 기기들을 출시하는 것은 매우 고무적인 일입니다. 하지만 Samsung, SK hynix, Micron은 모두 웨이퍼 생산 능력 (Wafer Capacity)의 대부분을 AI 가속기용 고대역폭 메모리 (HBM)로 전환했습니다. 이는 HBM이 범용 DRAM (Commodity DRAM)보다 훨씬 높은 마진을 제공하기 때문이며, 그 직접적인 결과로 기존 메모리 공급이 타이트해졌습니다. HP는 지난 2월 투자자들에게 메모리가 PC 제조 비용에서 차지하는 비중이 전 분기의 15%~18%에서 현재 약 35%로 증가했다고 밝혔습니다.

SK 그룹의 최태원 회장은 Computex 2026 개막일에 맞춰 진행된 연설에서, 향후 5년 내에 웨이퍼 생산 능력을 두 배로 늘리겠다는 회사의 의도에도 불구하고 메모리 부족 현상이 2030년까지 지속될 것이라는 입장을 재확인했습니다. 세 제조사 모두 새로운 팹 (Fab)을 건설 중이지만, 그 중 어느 것도 빨라야 2027년 말 이전에는 양산 단계에 도달하지 못할 것이며, 대부분의 전망치는 급격한 부족 현상이 완화된 이후에도 구조적으로 더 높은 가격 하한선이 지속될 것이라고 예측하고 있습니다.

Gorgon Halo 제품에 탑재된 192GB, RTX Spark 또는 DGX Spark의 128GB, 그리고 Computex에서 발표된 모든 AI 노트북에 납땜된 LPDDR5X는 모두 메모리 제조사들이 그렇지 않았다면 HBM으로 판매했을 웨이퍼에서 나옵니다. 이것이 바로 Nvidia가 지난 2월 단 하나의 사양도 변경하지 않고 DGX Spark의 가격을 700달러 인상한 이유이며, 부품 제조사들이 메모리 비용을 직접적으로 전가하기 시작한 이유입니다. 한 공급업체는 모든 구매에 대해 고정된 메모리 추가 요금을 부과하는 매우 노골적인 방식을 취하기도 했으며, 일부 사례에서는 소규모 구매자들에게 매시간 변동되는 가격이 제시되고 있습니다.

대역폭 제한이 추론 속도를 결정한다

A representation of the RTX Spark platform

192GB의 단일 풀(pool)을 사용하면, 원래라면 멀티 GPU (multi-GPU) 서버가 필요했을 모델을 APU (Accelerated Processing Unit) 하나에 담을 수 있습니다. 이것이 모델을 빠르게 실행하게 만들어주는 것은 아니지만, 밀집 언어 모델 (dense language model) 추론은 생성되는 토큰마다 메모리에서 활성 가중치 (active weights)의 거의 전체 세트를 읽어 들입니다. 따라서 생성 속도는 유휴 메모리 (idle memory) 양이 아니라, 메모리 대역폭 (memory bandwidth)을 토큰당 가중치 점유량 (per-token weight footprint)으로 나눈 값에 의해 결정됩니다.

Gorgon Halo는 Strix Halo와 동일한 256비트 LPDDR5X-8000 인터페이스를 유지하며, 이는 이론적으로 최대 약 256 GB/s에 달하고 독립적인 테스터들이 GPU에서 측정한 값은 212 GB/s에 더 가깝습니다. 이에 비해 AMD와 Nvidia가 용량 면에서 추격하고 있는 Apple M3 Ultra는 819 GB/s로 정격화되어 있으며, RTX 5090은 1,792 GB/s의 속도로 데이터를 이동시킵니다.

이러한 격차는 Strix Halo iGPU에 완전히 상주하는 700억 파라미터 (70-billion-parameter) 규모의 밀집 모델이 메모리 풀의 여유 공간이 얼마나 되느냐에 관계없이 초당 토큰 수 (tokens per second)가 한 자릿수 초반에 머무는 이유를 설명해 줍니다. 저희가 직접 리뷰한 Corsair AI Workstation 300 테스트에서도 바로 이 이유 때문에 컨텍스트 길이 (context length)가 길어질수록 Nvidia의 대역폭이 약간 더 높은 GB10이 Strix Halo를 앞서나가는 것을 확인했습니다.

용량은 토큰당 파라미터의 일부만 활성화되어 전체 크기에 비해 훨씬 빠르게 작동하는 전문가 혼합 (Mixture-of-Experts, MoE) 모델과, 모델 가중치보다는 KV 캐시 (KVcache)가 메모리를 점유하는 긴 컨텍스트 에이전트 워크로드 (long-context agentic workloads)에서 가장 중요합니다. AMD의 에이전트 중심 전략이 겨냥하는 지점이 바로 이러한 유스케이스 (use cases)이며, 유출된 차세대 Medusa Halo 부품의 세부 정보에 따르면 LPDDR6로의 전환과 함께 대역폭이 최대 80% 더 증가할 것임을 보여줍니다.

가격 방어

Agentic AI (에이전트형 AI)는 단순히 워크로드를 설명하는 것을 넘어, 벤더들에게 일종의 가격 책정 도구로도 작용합니다. 3,000억 개의 파라미터(parameter)를 가진 모델을 로컬에서 실행할 수 있다는 약속으로 판매되는 192GB 워크스테이션은, 코어 수와 클럭 속도로 판매되는 미니 PC보다 네 자릿수(달러)의 가격을 더 쉽게 책정할 수 있으며, 빌드에서 가장 비싼 부품을 최대 용량으로 탑재하는 것을 정당화합니다. AMD의 Ryzen AI Halo 개발자 박스인 128GB Strix Halo 시스템은 6월에 Micro Center를 통해 3,999달러로 예약 판매를 시작하며, 이는 Acer의 GB10 기반 Veriton GN100 및 가격 인상 전의 오리지널 DGX Spark 출시 가격과 일치합니다.

우선적인 메모리 할당을 유지할 수 있는 규모를 갖춘 유일한 벤더인 Apple은 반대의 행보를 보였습니다. Apple은 512GB Mac Studio 구성을 판매 목록에서 제외했고, 256GB 업그레이드 가격을 인상했으며, 지난 5월에는 공급이 타이트해짐에 따라 고용량 메모리를 탑재한 여러 Mac mini 및 Mac Studio 옵션을 추가로 제거했습니다.

이는 프리미엄 가격대를 유지하면서 용량을 확장하는 것이 시장에 의해 강요된 것이 아니라, AMD와 Nvidia 진영이 내린 선택임을 의심의 여지 없이 보여줍니다. 구매자들이 이를 수용할지는, 로컬 에이전트 추론(agentic inference)이 해당 메모리가 할 수 있는 일을 궁극적으로 결정하는 대역폭(bandwidth)을 앞지르는 메모리 용량을 탑재한 기기에서 클라우드 서비스보다 충분한 가치를 제공하여 그 지출을 정당화할 수 있는지에 달려 있습니다.

Luke James는 프리랜서 작가이자 저널리스트입니다. 법률 분야의 배경을 가지고 있지만, 기술의 모든 것, 특히 하드웨어와 마이크로일렉트로닉스(microelectronics), 그리고 규제와 관련된 모든 것에 개인적인 관심을 가지고 있습니다.

로컬 에이전트 컴퓨팅(Local Agentic Computing)의 부상과 냉혹한 현실: 상승하는 DRAM 가격 — RTX Spark 및

요약

핵심 포인트

DRAM 공급 압박

대역폭 제한이 추론 속도를 결정한다

가격 방어

댓글