본문으로 건너뛰기

© 2026 Molayo

TNP중요헤드라인2026. 04. 24. 09:42

NextSilicon의 Maverick-2: 데이터플로우 엔진으로 HPC 혁신

요약

NextSilicon이 8년간 개발한 차세대 데이터플로우 엔진 'Maverick-2'를 공개하며, 기존 CPU와 GPU의 한계를 뛰어넘는 새로운 컴퓨팅 패러다임을 제시합니다. Maverick-2는 RISC-V 기반 호스트 프로세서와 재구성 가능한 데이터플로우 엔진을 결합하여 '슈퍼칩(superchip)' 형태의 아키텍처를 구현했습니다. 이 시스템은 HPC(High Performance Computing) 환경에 최적화되어 있으며, 기존 Von Neumann 아키텍처가 가진 복잡성, 전력 소모, 실리콘 오버헤드 문제를 근본적으로 해결

핵심 포인트

  • Maverick-2는 RISC-V 기반의 호스트 프로세서와 재구성 가능한 데이터플로우 엔진을 결합한 '슈퍼칩' 형태의 아키텍처를 구현했습니다.
  • 전통적인 Von Neumann 아키텍처가 가진 복잡성, 높은 실리콘 오버헤드(98%가 데이터 관리용) 등의 문제를 해결하는 것이 핵심 목표입니다.
  • Maverick-2는 애플리케이션의 코드를 CPU에서 NextSilicon 자체 호스트 프로세서와 대규모 연산 장치(ALU)로 자동 포팅 및 최적화할 수 있는 기능을 제공합니다.
  • 이 칩은 TSMC의 5nm 공정으로 제작되었으며, 총 540억 개의 트랜지스터를 탑재하고 있습니다.

NextSilicon은 지난 8년간 $303M 규모의 투자 유치와 개발을 거쳐 차세대 데이터플로우 엔진 'Maverick-2'를 공개하며 고성능 컴퓨팅(HPC) 시장에 새로운 패러다임을 제시했습니다. Maverick-2는 기존 CPU나 GPU가 아닌, 독자적인 RISC-V 기반 프로세서인 Arbel과 결합하여 '슈퍼칩(superchip)' 형태의 혁신적인 호스트-가속기 조합을 목표로 합니다.

1. 데이터플로우 엔진의 필요성: Von Neumann 아키텍처의 한계

Maverick-2를 개발한 NextSilicon은 기존 컴퓨팅 방식인 Von Neumann 아키텍처의 근본적인 문제점을 지적합니다. 1940년대에 등장한 이 구조는 명령어와 데이터를 하나의 통합 메모리 공간(unified memory space)에 저장하고, 프로그램 카운터(Program Counter)가 명령어를 읽어 실행 장치(Execution Unit)에서 연산을 수행하는 방식입니다.

이러한 아키텍처를 개선하기 위해 SRAM 캐시 계층 추가, 분기 예측(branch prediction), 추측적 실행(speculative execution), 비순차 처리(out-of-order processing) 등의 복잡한 기법들이 도입되었지만, 이는 근본적인 해결책이라기보다는 '반응적 워크어라운드'에 불과했습니다. NextSilicon은 현재 최고급 프로세서의 실리콘 면적 중 98%가 실제 연산(computation)이 아닌 오버헤드, 트래픽 관리, 데이터 셔플링 등 비연산 작업에 할애된다는 충격적인 현실을 제시합니다.

2. Maverick-2와 Intelligent Computing Architecture (ICA)

Maverick-2가 채택한 **지능형 컴퓨팅 아키텍처(Intelligent Computing Architecture, ICA)**는 이러한 문제를 해결하기 위해 설계되었습니다. 이 방식은 수백 개의 상호 연결된 산술 논리 장치(Arithmetic Logic Units, ALUs)로 구성된 로직 블록을 핵심으로 합니다. 여기서 ALU는 명령어와 유사하게 취급되며, 애플리케이션의 명령어가 각 ALU에 직접 매핑됩니다.

이 아키텍처의 가장 큰 강점은 하드웨어 자체가 소프트웨어에 맞춰 설계된다는 점입니다. 즉, 데이터가 필요한 곳으로 이동하는 복잡한 경로를 추적하기보다, 연산 자체를 병렬적으로 대규모로 수행할 수 있도록 구조화합니다.

Maverick-2 칩 다이(die)의 구성을 보면, 좌우 가장자리에 32개의 RISC-V E-코어(E-cores)가 배치되어 있으며, 중앙에는 총 7열에 걸쳐 각각 8개의 컴퓨팅 블록을 가진 그리드 구조로, 총 224개의 컴퓨팅 블록이 존재합니다. 각 컴퓨팅 블록은 수백 개의 ALU를 포함할 수 있어, 전체적으로 수만 개에서 최대 10만 개에 달하는 ALUs를 구현할 잠재력을 가집니다.

3. 시스템적 이점 및 활용 분야

Maverick-2는 단순한 하드웨어 개선을 넘어선 통합 솔루션을 제공합니다. 첫째, HPC(High Performance Computing) 환경에 초점을 맞춘 'HPC-first' 기업이라는 정체성을 확고히 했습니다. 둘째, 코드를 CPU에서 NextSilicon의 호스트 프로세서와 대규모 ALU로 자동 포팅하고 최적화하는 소프트웨어 아키텍처를 갖추었습니다. 이는 개발자가 복잡한 하드웨어 구조에 신경 쓸 필요 없이 애플리케이션을 구동할 수 있게 합니다.

이러한 혁신적인 조합 덕분에 Maverick-2는 전 세계 HPC 센터의 관심을 받고 있으며, 초기 상용화 시스템은 샌디아 국립 연구소(Sandia National Laboratory)가 주도할 것으로 예상됩니다. 이로써 NextSilicon은 컴퓨팅 성능 향상뿐만 아니라 전력 효율성 및 비용 절감이라는 세 가지 측면에서 기존 시장의 패러다임을 변화시키고 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 The Next Platform의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0