Tom's Hardware헤드라인2026. 06. 25. 19:12

Qualcomm, HBC 근접 메모리 AI 아키텍처 및 AI250, AI350 가속기 공개 — HBM 대비 와트당 대역폭 6배, 온칩 SRAM

요약

Qualcomm이 메모리 벽 문제를 해결하기 위해 LPDDR DRAM 스택 아래에 AI 가속기를 배치하는 HBC(High-Bandwidth Compute) 근접 메모리 아키텍처를 공개했습니다. 이 방식은 HBM 대비 와트당 대역폭이 6배 높으며, 고가의 인터포저 없이 표준 패키징을 사용하여 비용 효율성을 극대화합니다.

핵심 포인트

HBC 아키텍처를 통해 HBM 대비 와트당 대역폭 6배 향상
LPDDR DRAM 스택 하단에 가속기를 배치하여 메모리 병목 현상 완화
고가의 실리콘 인터포저를 제거하여 비용 및 전력 소비 절감
온칩 SRAM 대비 200배 이상의 용량 제공 가능

소위 메모리 벽(memory wall)은 많은 AI 워크로드에서 주요한 성능 제한 요소이며, 연산 능력(compute capability)이 메모리 대역폭(memory bandwidth)보다 더 빠르게 성장하고 있기 때문에 고대역폭 메모리 (HBM)가 항상 만능 해결책은 아닙니다. Qualcomm은 수요일, 메모리 벽을 허물고 특정 AI 워크로드의 성능을 선형적으로 확장할 수 있도록 설계된 고대역폭 컴퓨팅 (HBC, high-bandwidth compute)이라 불리는 HBC 근접 메모리 컴퓨팅 (near-memory compute) 아키텍처를 소개했습니다.

근접 메모리 컴퓨팅에 대한 Qualcomm의 접근 방식은 매우 직관적입니다. 이 회사는 AI 가속기를 시스템 온 칩 (SoC)에서 분리하여 LPDDR DRAM 스택 아래에 배치합니다. HBC 가속기는 관통 실리콘 비아 (through-silicon vias)를 사용하여 LPDDR 스택에 연결되며, 이를 통해 값비싼 HBM 메모리와 고급 패키징을 사용하지 않고도 최대의 대역폭과 용량을 제공합니다. Qualcomm은 HBC가 제공하는 실제 대역폭을 공개하지는 않았지만, HBM 대비 와트당 대역폭이 6배 더 높고 온칩 SRAM 대비 용량이 200배 이상이라고 주장합니다.

(이미지 출처: Qualcomm)

"우리는 AI 가속기를 XPU에서 분리하여 DRAM 스택 바로 아래에 XPU를 배치했습니다."라고 Qualcomm의 데이터 센터 비즈니스 부문 부사장 겸 총괄 매니저인 Tony Pialis는 말했습니다. "이는 SRAM의 성능적 이점과 적층 메모리의 밀도 및 용량을 동시에 제공하기 때문에 매우 중요합니다. 결과적으로 HBM과 관련된 혼잡 문제가 사라졌습니다. 업계에 주는 가치는 더 낮은 전력 소비, 적은 열 발생, 그리고 HBM 솔루션에서 사용되는 비용이 많이 드는 실리콘 인터포저 (silicon interposer)의 제거입니다. 또한 표준 패키징을 사용하여 단일 컴퓨팅 장치 내에 여러 개의 HBC 스택을 배치할 수 있어, 비용 대비 상당한 성능 이점을 제공할 수 있습니다."

로직 (logic) 위에 DRAM을 배치하거나 로직 옆에 배치하는 것은 새로운 기술이 아닙니다. 모든 DRAM 제조사들이 근접 메모리 컴퓨팅 (near-memory compute) 아키텍처를 실험해 왔지만, 이를 대중화하는 데는 실패했습니다. 보다 최근에는 팹리스 ASIC 설계 서비스 기업인 GUC가 로직 위에 1~4개의 DRAM 레이어를 배치하는 DRAM-on-Logic (DoL) 기술을 제안했습니다. 이 기술은 값비싼 첨단 패키징 (advanced packaging)과 HBM3E 스택을 사용하지 않고도 5 TB/s의 메모리 대역폭 (memory bandwidth)을 확보하고 일부 HBM3E 메모리 서브시스템보다 높은 성능을 제공하는 것을 목표로 합니다.

Qualcomm이 실제 성능 수치를 공개하지 않았기 때문에, 자사의 HBC를 GUC의 제품과 비교하기는 어렵습니다. 하지만 HBC에 대한 가장 큰 주의 사항은 Qualcomm이 HBC 가속기 (accelerator)가 실제로 무엇을 수행하는지 밝히지 않았다는 점입니다. 이론적으로는 트랜스포머 (transformer) 전용 근접 메모리 엔진, 더 일반적인 텐서 코어 (tensor cores) 어레이, 또는 AI 추론 (inference)이나 학습 (training)을 위한 일종의 전처리 로직 (preprocessing logic) 등 무엇이든 될 수 있습니다.

(이미지 출처: Qualcomm)

Qualcomm은 HBC 기술과 함께 HBC 로드맵도 공개했습니다. 올해 말 출시 예정인 회사의 AI200 가속기는 LPDDR5X에 의존하며 랙 (rack)당 43 TB의 RAM을 제공할 예정이지만, 그 후속 모델인 AI250은 AI200보다 18배 높은 대역폭을 제공하는 1세대 HBC를 기반으로 할 것입니다. AI300은 AI200보다 54배 높은 대역폭을 제공하는 2세대 HBC를 사용할 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Qualcomm, HBC 근접 메모리 AI 아키텍처 및 AI250, AI350 가속기 공개 — HBM 대비 와트당 대역폭 6배, 온칩 SRAM

요약

핵심 포인트

댓글