Broadcom: CPU 및 XPU 제조사가 컴퓨팅을 통해 수직으로 확장하는 데 도움을 줌
요약
컴퓨팅 성능 향상을 위해 칩 설계는 2차원 평면(2D)에서 수직적 적층 구조(3D/3.5D 스태킹)로 진화하고 있으며, Broadcom은 이 트렌드를 주도하고 있습니다. HBM 메모리부터 시작된 수직 확장은 이제 CPU와 XPU의 컴퓨팅 코어까지 포함하는 칩릿 스택 형태로 확장되고 있습니다. 이러한 3.5D 패키징 기술(예: Broadcom의 XDSiP)은 시스템 보드에 여러 개의 엔진을 연결할 때 발생하는 지연 시간과 전력을 획기적으로 줄여, 더 강력하고 고성능의 단일 소켓 아키텍처를 가능하게 합니다.
핵심 포인트
- 컴퓨팅 트렌드는 2D 평면에서 수직 적층(3D/3.5D 스태킹)으로 이동하며, 이는 지연 시간 및 전력 효율성 개선을 목표로 합니다.
- HBM 메모리부터 시작된 수직 확장은 이제 CPU와 XPU의 컴퓨팅 코어까지 포함하는 칩릿 스택 형태로 확장되고 있습니다.
- Broadcom의 3.5D Extreme Dimension System in Package (XDSiP)는 여러 개의 컴퓨팅 칩릿과 HBM 메모리를 단일 패키지에 통합하여 시스템 성능을 극대화합니다.
- 고성능 컴퓨팅(최신 공정 노드)은 상단에 배치하고, SRAM이나 인터커넥트 같은 저활성 요소를 하단에 배치하는 계층적 구조가 채택되고 있습니다.
Broadcom Helps CPU And XPU Makers Go Vertical With Compute
컴포넌트 간의 지연 시간을 줄이고, 컴퓨팅 엔진 및 네트워크 ASIC 으로 더 많은 회로를 소켓 (socket) 에 밀집시키는 필요성 때문에 칩 설계자가 2 차원 세계를 벗어나 컴포넌트를 쌓아 올리기 시작할 것이라는 것은 명백하다.
우리는 DRAM 메모리에서 HBM 스택을 통해 수직으로 확장했으며, 이는 메모리 칩의 전력 소모가 데이터 전송 및 연산에 사용되는 ASIC 에 비해 상대적으로 낮기 때문에 비교적 간단한 작업이었다. 우리는 GPU 와 XPU 를 HBM 스택된 메모리와 연결하기 위해 인터포저 (interposer) 에서 사용하는 2.5D 스택을 사용했으며, AMD 는 Epyc CPU 로 L3 캐시 칩의 3D 스택을 선도했다. 현재 Intel 과 AMD 는 다양한 CPU 와 GPU 에서 캐시 메모리에 대해 3D 스택을 정기적으로 사용하고 있으며, 이것이 캐시를 줄이지 않고 소켓에 더 많은 컴퓨팅 코어를 넣을 수 있게 해주기 때문에 이것이 표준이 되지 않은 이유에 대해 항상 궁금해 왔다.
우리가 수직으로 확장하고 싶은 이유는 직관적으로 명확하다. 2.5D 인터커넥트를 사용하여 산업계가 더 크고 큰 소켓을 구축하는 것이 왜 중요한지처럼, 여러 칩릿 (chiplets) 에서 이루어진 가상적이고 더 큰 2D 칩을 만드는 것이다.
HPC 와 AI 시스템에서 수십 년 동안 시스템 보드 (system board) 에 4 개 또는 8 개의 GPU 나 XPU 를 설치하는 것은 일반적인 일이었지만, 이러한 컴퓨팅 엔진을 오프 칩 링크로 연결 – 선택은 당신의 독재에 맡기십시오 – 는 Harish Bharadwaj, Broadcom 의 3.5D Extreme Dimension System in Package (XDSiP) 칩릿 스택을 주도하는 제품 마케팅 부회장이 The Next Platform 에 따르면, 비트당 3 피코줄에서 5 피코줄 사이 somewhere 간에 소비된다.
4 개의 컴퓨팅 엔진이 있는 시스템 보드를 단일 소켓으로 압축하면 동일한 컴퓨팅 요소를 die-to-die 링크를 사용하여 연결하는 것은 0.2 피코줄 미만이다. 소켓 내부의 거리는 모더보어 트레이스를 사용하는 것보다 분명히 짧기 때문에, 이는 지연 시간과 전력도 줄인다. 결과적인 소켓은 모더보어와 고속 인터커넥트를 통해 더 확장될 수 있으며 – 종종 실제로는 – 따라서 시스템 아키텍트에게는 이것이 끝이 아니다. 그러나 분명히, 당신은 만들 수 있는 가장 성능이 높은 소켓을 원해야 한다. 그것이 실제 컴퓨팅의 단위이기 때문이다.
따라서 3D 스택은 복잡성과 비용과 무관하게 필연적이다. Broadcom 이 고객과 함께 작업 중인 일반적인 3.5D XPU 는 여러 개의 스택된 컴퓨팅 칩릿 – 단 하나만 – 을 가지며, 또한 HBM 메모리의 여러 개의 스택을 가진다. 원래 3.5D XDSiP 는 12 개의 HBM 메모리 스택으로 최고치였으며, Broadcom 은 이 수치를 더 높게 만드는 데 노력하고 있다.
나는 추측하지만, XPU 제조사는 HBM 세대를 뒤로 물고 더 저렴한 HBM 메모리를 사용하여 용량과 대역폭을 얻고자 한다. 예를 들어, 우리는 Google 이 최신 TPU 8 XPU 에서 이를 수행한 것을 보았다. 이는 HBM3E 메모리를 사용하는 대신에 현재 HBM4 를 사용하며, SambaNova Systems 는 SN50 RDU 에서 이를 수행하여 비용을 저렴하고 깊게 유지하기 위해 HBM2E 메모리를 사용했다. (Google 은 Broadcom 을 사용하여 TSMC foundry 를 통해 "Sunfish" TPU 8t 를 칩 스헤퍼드로 돕고 있지만, 우리가 아는 한 3.5D XDSiP 를 사용하지 않았다.)
우리는 Fujitsu 가 향후 "Monaka" Arm 서버 CPU 를 통해 이미 알고 있습니다. 우리는 2023 년 3 월에 심층 분석을 수행했으며, 이제 이를 144 개의 Armv9-A 코어를 사용하여 나노미터와 5 나노미터 칩릿의 혼합으로 구성할 것으로 알려져 있습니다. Monaka 칩은 샘플 양으로 제조되었으며 Fujitsu 는 Broadcom labs 의 끝에서 2 년 전에 Monaka 디자인에 3D 컴퓨팅 칩 스택을 추가한 후 그것을 다시 받았습니다.
Monaka 샘플이 어떻게 보이는지:
Fujitsu 가 Broadcom 의 3.5D Extreme Dimension System in Package (XDSiP) 칩릿 스택을 어떻게 구현할지는 아직 명확하지 않습니다 - Monaka 칩이 2027 년에 출시될 때 회사는 말할 것을 남기려는 것입니다 - 그러나 Bharadwaj 는 Fujitsu 가 2 나노미터 프로세스를 사용하여 컴퓨팅 칩릿을 다른 5 나노미터 프로세스를 가진 컴퓨팅 타일 위에 스택하고 있다고 말합니다.
Bharadwaj 는 Broadcom 의 3.5D XDSiP 을 6 개의 다른 회사들이 그들의 맞춤형 AI XPU 디자인에서 구현하고 있다고 합니다. 6 개의 XPU 제조사 중 2 개는 아마존 웹 서비스의 Trainium4 로 올해 말에 도착할 것이지만 아마도 2027 년에 대량으로 설치될 것이며 메타 플랫폼의 MTIA 500 도 2027 년에 도착할 것입니다. 하지만 그것은 추측일 뿐입니다.
"3.5D XDSiP 을 사용하는 고객은 최상단 칩을 가장 최신 실리콘 노드로 유지하여 가장 높은 성능 컴퓨팅을 수행할 수 있도록 하는 것이 핵심입니다," Bharadwaj 는 설명합니다. "고객들은 3 나노미터를 3 나노미터, 2 나노미터를 3 나노미터, 그리고 심지어 1.4 나노미터를 3 나노미터로 하고 있습니다. 그 것은 조금 진화하고 있습니다. 포인트는 고성능 컴퓨팅을 최상단에 두면 열이 빠져나가기 쉬워지고, SRAM 과 일부 저활성 컴퓨팅 및 인터커넥트를 하단에 두어 열은 적지만 여전히 빠져나갈 수 있도록 하는 것입니다.
Bharadwaj 는 Broadcom 이 3.5D XDSiP 을 5 년 이상 개발해 왔으며, 이는 AMD 가 Taiwan Semiconductor Manufacturing Co 와 함께 개발한 "면 대 면" 3D SoIC 접근 방식과 다른 접근 방식이라고 합니다. 예를 들어, L3 칩을 컴퓨팅 칩 위에 스택하고 칩의 핀으로 연결하는 데 사용했습니다.
면 대 면 3D SoIC 접근 방식이 어떻게 보이는지:
TSV 밀도를 지켜보세요. Bharadwaj 는 면 대 면 접근 방식으로 지금까지 신호 밀도가 평방 미리미터당 1,500 개의 신호를 얻을 수 있다고 말하며, 이는 칩 디자이너가 상단과 하단 칩의 구조 및 연결 방법을 주의 깊게 고려해야 함을 의미합니다.
칩 스택에서 면 대 면으로 가면 두 칩의 금속은 이미 정렬되어 있으며 2D 칩릿 디자인에서 이를 위해 특별한 작업을 수행할 필요가 없습니다. 모든 것이 필요한 것은 결합제가 되어야 합니다. Broadcom 과 TSMC 는 3.5D XDSiP 을 개발하기 위해 함께 작업하고 있습니다. 이렇습니다:
3.5D XDSiP 에서 두 칩 간의 신호 밀도는 거의 10 배 더 큽니다, 평방 미리미터당 14,000 개의 신호입니다.
그리고 이것이 바로 하나의 CPU 와 6 개의 XPUs 가 기술을 사용하는 것이 있는 이유입니다. Fujitsu 는 첫 번째로 출시되지 않을 것이지만 Broadcom 에 따르면 적어도 6 개 중 하나는 2026 년 하반기에 어느 때나 출시될 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 The Next Platform의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기