Tenstorrent 입문: 오픈 아키텍처로 겨냥하는 저비용 추론 칩

서론

AI 인프라에서 현재 데팩토 스탠다드(de facto standard)라고 할 수 있는 것은 NVIDIA GPU를 이용한 클러스터 서버입니다. 이러한 시스템에서는 GPU, NVLink, InfiniBand 등의 고속 인터커넥트(interconnect)가 긴밀하게 통합되어 높은 성능을 실현할 수 있는 반면, 특정 벤더에 대한 락인(lock-in)이 과제가 되고 있습니다.

이에 대해 AMD Zen이나 Apple A 시리즈의 설계를 주도했던 Jim Keller이 이끄는 Tenstorrent는 연산·메모리·네트워크를 단일 실리콘에 통합한 「Networked AI」 아키텍처를 내세우고 있습니다.

기존의 AI 시스템에서 GPU 등의 액셀러레이터(accelerator)는 PCIe 버스에 장착되는 종속적인 주변 기기였습니다. Tenstorrent는 이와 달리 칩 내부에 라우팅 네트워크와 범용 제어 프로세서(RISC-V)를 통합하고 있습니다. 호스트 CPU에 의존하지 않고 칩 단독으로 동작하며, 표준 Ethernet으로 그대로 스케일 아웃(scale-out)할 수 있는 구성을 지향합니다.

본 기사에서는 해당 기업의 칩 구성·성능·강점과 약점·개발 환경을 기술자를 대상으로 정리합니다.

1. Blackhole의 전체상: Tensix·RISC-V·Ethernet을 1칩에 통합

칩 세대의 진화

출처: Tenstorrent 공식 자료를 바탕으로 작성

Tenstorrent의 설계 사상은 미세 공정의 개선뿐만 아니라, 데이터 이동의 병목 현상을 제거하는 데이터 플로우(Dataflow) 혁신에 초점을 맞추고 있습니다.

세대는 Grayskull(초대 AI 프로세서) → Wormhole(온칩 Ethernet 라우터를 도입한 네트워크 AI 프로세서) → Blackhole(호스트 CPU가 필요 없이 단독 동작하는 현행 플래그십)로 진화해 왔습니다. 차세대에서는 필요한 기능(AI 연산·CPU)을 개별 칩렛(chiplet)으로 분할하여 자유롭게 조합하여 사용하는 칩렛 체제로 이행합니다. 이 차세대의 구체적인 제품군(Quasar·Athena·Grendel)과 그 배경에 있는 오픈 표준은 제3장에서 해설합니다[1].

Blackhole의 내부 구성: 온칩 메모리와 네트워크

Blackhole은 연산(Tensix AI 코어)·제어(Big RISC-V)·메모리·네트워크를 단일 다이(die)에 통합한 대형 SoC입니다[2]. GPU처럼 호스트 CPU로부터 제어되는 주변 기기가 아니라, 칩 단독으로 Linux를 기동하여 연산 제어까지 디바이스 내에서 완결할 수 있습니다. 각 구성 요소의 구체적인 수치는 후술할 비교표에 정리합니다.

외부 DRAM으로의 비효율적인 왕복 트래픽을 억제하기 위해, 각 Tensix 코어는 1.5MB의 L1 SRAM을 내장하고 있습니다. 합계 180MB의 온칩 메모리 공간을 확보하는 설계입니다[3].

외부 인터페이스는 GDDR6, PCIe Gen5 외에도 p150a／p150b 카드에서는 4포트의 QSFP-DD 800G Ethernet(패시브, Blackhole 상호 연결용)을 갖추고 있습니다[3]. 이를 통해 스위치 장치 없이 Blackhole 상호 간을 직접 케이블로 연결하여 토러스(Torus) 토폴로지(topology)로 스케일 아웃할 수 있습니다.

차세대 Grendel 플랫폼에서는 연산(Quasar)과 제어(Athena)를 독립된 전용 다이(반도체 칩의 조각)로 분리하고, 이들을 기판 위에서 배선 연결하여 하나의 패키지로 묶는 칩렛(Chiplet) 구조로 진화할 예정입니다. 이 「칩끼리 연결하는 배선 기술」을 칩렛 인터커넥트(chiplet interconnect)라고 부르며, Grendel에서는 다이 간 연결에 업계 표준인 BoW／UCIe 규격을 채택합니다[1]. 칩렛 표준의 상세 내용은 제3장에서 해설합니다.

주요 스펙 비교 (Wormhole / Blackhole)

기술 규격·지표	Wormhole (n300s)	Blackhole (p150a)
제조 공정 (Manufacturing Process)	12nm	6nm
...		범용 제어 CPU 코어

내장 SRAM 용량	192 MB (ASIC당 96 MB)	180 MB
외부 물리 메모리	24 GB GDDR6 (192-bit 버스)	32 GB GDDR6 (256-bit 버스)
메모리 대역폭 (Memory Bandwidth)	576 GB/s	512 GB/s
...

메모리 대역폭이 Wormhole (576 GB/s) > Blackhole (512 GB/s)로 역전되어 보이는 점에는 주의가 필요합니다. Wormhole n300s는 2개의 ASIC을 탑재한 듀얼 칩 카드이며, 576 GB/s는 카드 전체 (2개 칩 합산)의 값입니다. 반면 Blackhole p150a는 단일 칩당 값 (256-bit 버스)이며, 칩 단체의 연산 성능 및 SRAM 용량은 Blackhole이 앞섭니다. 양자는 단순 비교할 수 없습니다.

2. Tenstorrent의 RISC-V 전략: 라이선스 IP 「Ascalon」과 칩 내장 코어

Tenstorrent의 RISC-V 활용에는 성격이 다른 두 가지 축이 있습니다. 하나는 외부에 제공하는 **라이선스 IP로서의 고성능 CPU 「Ascalon」**이며, 다른 하나는 칩 내부에 내장된 제어용 RISC-V 코어입니다. 본 장에서는 먼저 Ascalon을 다루고, 이어서 양자의 역할 분담 (칩 내장 코어)을 정리합니다.

Tenstorrent는 액셀러레이터(Accelerator) 외에도 독자적인 고성능 RISC-V CPU 아키텍처인 「Ascalon」을 라이선스 시장에 투입하고 있습니다 [4]. RVA23 표준 사양을 준수하며, 데이터 센터 서버부터 차량용 ADAS까지를 커버합니다 [5].

Ascalon-X: 고성능 코어

Tenstorrent가 공표 시점에서 업계 최초라고 주장하는 8-wide 디코딩 구조를 가진, 아웃 오브 오더 (Out-of-Order Superscalar) 64비트 CPU 코어입니다 [11].

듀얼 256비트 벡터 전용 엔진
분기 예측 (Branch Prediction) · 프리페처 (Prefetcher) 제어
RAS 디버그 기능

지표	값
제조 공정 (Manufacturing Process)	Samsung SF4X (4nm)
...

Ascalon-S: 고효율 코어

실행 효율을 중시한 고밀도 서브라인으로, 에이전트형 AI (agentic AI) 특유의 「분기가 많고, 툴 연동을 동반하는」 실행 패턴에 최적화되어 있습니다. 2026년 6월 30일에 도쿄에서 개최된 이벤트 「TT-Deploy JP」에서 정식으로 발표되었습니다. 상위 모델인 Ascalon-X를 기반으로 하면서도, 면적을 약 50%로 억제하면서 mm²당 성능을 약 140%로 높인 설계라고 합니다 [12].

Tensix 코어와 RISC-V 코어의 역할 분담

Ascalon이 호스트급의 독립적인 고성능 CPU IP인 것에 반해, Tenstorrent의 칩 내부에는 제어용 RISC-V 코어가 세밀하게 분산 배치되어 있습니다. 왜 AI 액셀러레이터에 범용 CPU (RISC-V)가 필요할까요?

GPU 액셀러레이터형 아키텍처에서는 호스트 CPU와의 제어 상호작용이 PCIe를 경유하기 때문에 레이턴시 (Latency) 오버헤드가 발생합니다. 반면 Blackhole은 제1장에서 언급했듯이 온칩 (On-chip)에 프로그래머블한 RISC-V 코어를 가지고 있어, 제어 플로우를 디바이스 내에서 완결할 수 있습니다. 이를 통해 동적인 계산 그래프를 가진 모델 (MoE, 루프를 포함한 추론 등)에서 우위가 생깁니다.

그 역할 분담을 나타낸 것이 아래의 그림입니다.

출처: Tenstorrent 공식 자료를 바탕으로 작성

각 Tensix 코어는 5개의 베이비 (Baby) RISC-V 프로세서 [3]를 내장하고 있습니다. 이것들이 연산 플로우 제어 · 온칩 버퍼링 · 데이터 송수신 스케줄링을 담당합니다.

연산 유닛은 역할이 다른 두 종류의 엔진으로 나뉩니다. 타일 매스 엔진(Tile Math Engine)은 행렬 곱(matmul)에 특화된 핵심 요소로, 신경망 연산량의 대부분을 차지하는 곱셈-누산(MAC) 연산을 타일(작은 행렬 블록) 단위로 묶어 고속 처리합니다. 전결합층(Fully Connected Layer)·컨볼루션(Convolution)이나, Attention의 QK/AV 계산이 여기에 해당합니다. 반면, 벡터 매스 엔진(SFPU: Special Function Processing Unit)은 활성화 함수(GELU·Softmax 등)나 정규화(LayerNorm), 요소별 연산(elementwise)과 같이 행렬 곱으로는 표현할 수 없는 처리를 담당합니다.

3. 벤더 락인(Vendor Lock-in)을 깨다: Tenstorrent가 주도하는 칩렛 표준 OCA와 제품 스택

차세대 Grendel 플랫폼이 채택하는 칩렛(Chiplet) 구조를 뒷받침하는 것이 Tenstorrent가 주도하는 오픈 표준인 「Open Chiplet Atlas (OCA)」입니다. 이는 고비용·고위험의 기존 모놀리식(Monolithic) 설계에서 벗어나, 각 기업이 독립적으로 제조한 반도체 다이(Die)를 정밀하게 접합하기 위한 범용적인 칩렛 상호 운용 사양입니다. 특징은 벤더 락인이나 라이선스 비용이 전혀 없는, 업계 중립적인 오픈 사양으로 설계되었다는 점에 있습니다.

OCA는 다음의 5개 레이어를 제어하는 인터커넥트 인터페이스 설계 프레임워크를 규정합니다.

레이어	역할
Physical (물리)	칩 간의 전기적 연결
...

이러한 오픈 칩렛 사상은 설계 사양에 그치지 않고, Tenstorrent의 제품 라인업 그 자체에 구현되어 있습니다. 동사는 최하위 레이어인 IP부터 이를 통합한 SoC/칩렛, 여러 다이를 묶는 칩렛 MCM, 보드/카드, 서버 시스템, 그리고 최상위 소프트웨어에 이르기까지 수직 통합(Vertical Integration) 방식으로 일괄 전개하고 있습니다.

출처: Tenstorrent 공식 자료를 기반으로 작성

핵심은 최하위 IP는 타사에 라이선스 제공이 가능하며, 최상위 소프트웨어는 오픈 소스로 개방되어 있다는 점에 있습니다. Tenstorrent는 이 '양 끝이 열린' 스택 구조를 통해 사용자가 필요한 레이어부터 자유롭게 채택할 수 있는 유연성을 제공합니다.

차세대 칩렛의 면면: Quasar·Athena 및 Grendel

제1장에서 예고한 차세대 칩렛 제품을 여기서는 OCA의 맥락에서 구체적으로 살펴보겠습니다. 이 '필요한 기능을 분할하여 자유롭게 조합한다'는 사상은 차세대 칩렛 제품 그 자체에 구현되어 있습니다.

Quasar (AI 칩렛): 32개의 Tensix Neo 코어를 탑재한 저전력 AI 칩렛입니다. 4nm 공정으로 제작되었으며, SMC(self-boot/Reset) 및 논블로킹(Non-blocking) D2D 인터페이스를 갖추고 있어, 여러 개의 Quasar를 스택하거나 조합하여 연산 규모를 선택할 수 있습니다 [1].

Athena (CPU 칩렛): 고성능 RISC-V CPU 칩렛입니다. 4nm 공정으로 제작되었으며, SMC·IOMMU·AIA를 지원하여 IO/메모리/CPU 연산을 컴포저블(Composable, 재구성 가능)하게 구성할 수 있습니다 [1].

그리고 이것들을 하나로 묶은 최상위 완성품 플랫폼이 「Grendel」입니다. Grendel은 「RISC-V CPU와 Tensix AI 연산을 재구성 가능한 독립 타일(칩렛)로 분할한다」는 구상으로 자리매김하고 있으며 [10], CPU 칩렛(Athena)과 AI 칩렛(Quasar)에 고속 메모리 및 I/O 칩렛을 더해 단일 패키지로 통합합니다.

OCA 채택으로 고객 측에 무엇이 변하는가

현재의 AI 가속기 구성은 「칩·인터커넥트·소프트웨어 스택」을 수직 통합한 특정 벤더에 대한 의존도가 높은 구조입니다. 이 때문에 전환 비용이 높고, 특정 세대나 특정 벤더에 대한 락인이 장벽이 되고 있습니다.

OCA가 보급되면 이 구조는 근본적으로 변하게 됩니다. x86 서버에서 CPU·메모리·스토리지를 개별 조달하는 것과 마찬가지로, 연산 다이·메모리 다이·I/O 다이를 각각 다른 벤더로부터 조달하여 동일 패키지 상에서 상호 연결할 수 있게 됩니다. 고객 측에는 주로 다음과 같은 변화가 기대됩니다.

벤더 고착(Vendor Lock-in)으로부터의 해방: 연산·메모리·I/O를 다이(Die) 단위로 선택할 수 있는 구조가 되어, 특정 세대나 특정 벤더에 종속되는 현상을 원리적으로 해소할 수 있습니다.
공급 리스크에 대한 내성: 단종이나 공급 지연이 발생하더라도, OCA 준수 시 대체 다이로 전환할 수 있는 기술적 경로가 남아 있습니다.

4. CUDA 대신 무엇을 사용하는가: TT-Forge·TT-NN·TT-Lang의 전체 모습

소프트웨어 스택은 상위의 프레임워크 연동층부터 최하층인 TT-Metalium까지 여러 계층으로 구성되어 있습니다. 개발자는 목적에 맞는 계층부터 접근할 수 있습니다.

본 장에서는 고수준 계층(TT-Forge·TT-NN·TT-Lang)을 다루며, 최하층인 TT-Metalium과 GPU와의 차이점은 제5장에서 상세히 설명합니다. 구형 컴파일러(TT-Buda / PyBuda)는 아카이브화되었으며, 현재는 MLIR 기반의 TT-Forge가 중심입니다.

출처: Tenstorrent 공식 자료를 기반으로 작성

TT-Forge: MLIR 기반 컴파일러

PyTorch·JAX·TensorFlow·ONNX로부터 Tenstorrent 하드웨어용 커널을 생성하는 오픈 소스 MLIR 컴파일러입니다[6].

TT-XLA: OpenXLA 연동. JAX/PyTorch의 StableHLO를 JIT 입력
TT-Forge-ONNX: TVM 프레임워크와의 바인딩
내부 다이알렉트(Dialect) (TTIR·TTNN·TTKernel)를 통해 메모리 오버헤드 추적
TT-NPE 프로파일러·TT-Explorer 분석 도구 동봉

TT-NN: 연산자 라이브러리

cuDNN에 해당하는 라이브러리입니다. PyTorch 호환 API를 가지며, ATen 연산자의 커버리지를 확대 중입니다. 모델 개발자나 오퍼레이터 개발자가 주요 사용자입니다.

TT-Lang: Python 기반 DSL

TT-NN과 TT-Metalium의 중간에 위치하는 하이브리드 DSL입니다[7]. 커널 함수 전체를 @ttl.operation()으로 정의하고, 그 내부에서 연산 스레드를 @ttl.compute()로, 데이터 이동(NoC/DMA) 스레드를 @ttl.datamovement()로 기술합니다. L1 버퍼의 확보는 ttl.make_dataflow_buffer_like()가 담당하며, 데이터 플로우 매핑을 세밀하게 제어할 수 있습니다.

출처: Tenstorrent 공식 자료를 기반으로 작성

5. TT-Metalium과 CUDA의 결정적인 차이: 데이터 이동을 "쓰는" 프로그래밍 모델

제4장에서 다룬 고수준 계층(TT-Forge·TT-NN·TT-Lang)과 달리, 본 장에서는 소프트웨어 스택의 최하층인 TT-Metalium을 다룹니다.

TT-Metalium은 CUDA에 해당하는 저수준 계층입니다[8]. Tensix 코어에 대한 직접 액세스와 독자적인 커널 기술이 가능하며, 최대 성능을 끌어내고 싶을 때 사용합니다. 다음과 같은 전송 구조를 지원합니다.

Big-Mesh (scale-up): 여러 호스트 런타임을 단일 맵으로 통합
Multi-Mesh (scale-out): 각 메시 노드가 비동기적·독립적으로 전송 처리

GPU 프로그래밍 모델과의 차이

TT-Metalium은 GPU의 추상화된 커널 실행 모델과는 근본적으로 다르며, AI 워크로드와 스케일 아웃(Scale-out)을 전제로 설계되었습니다.

관점	GPU 프로그래밍	TT-Metalium
커널 기술	전용 커널 언어	순수 C++ (Host API / Kernel API)
...

핵심은 서로 다른 코어가 서로 다른 커널을 실행하고, 코어 간에 직접 데이터를 플로우(Flow)시킬 수 있다는 점에 있습니다. GPU가 딥러닝 연산(Deep Learning Ops, DNN)이나 집합 통신(Collective Communication, CCL)을 라이브러리 계층에서 제공하는 반면, TT-Metalium은 이를 커널 내에서 직접 기술하고 융합할 수 있습니다. 데이터 이동과 연산의 오버랩(Overlap)을 세밀하게 제어할 수 있으며, 이것이 스케일 아웃 시의 효율을 뒷받침하는 기반이 됩니다.

6. Tenstorrent는 NVIDIA의 대안이 될 수 있는가: 차별화 요인과 현시점의 한계

Tenstorrent의 위치를 차별화 요인과 현시점의 과제로 나누어 정리합니다. 각 강점에는 실운용상의 효과도 함께 기재합니다.

차별화를 만드는 강점

스위치 불필요한 스케일 아웃과 TCO 절감

수냉식 소형 워크스테이션 「TT-QuietBox™ (Wormhole)」 제품 사진 (출처: Tenstorrent 공식 사이트)

고가의 Ethernet 스위치를 거치지 않고, 칩끼리 케이블로 직접 연결하여 2D 토러스 메시 (2D Torus Mesh) 구조를 구축할 수 있습니다. 스위치 장비의 비용과 소비 전력을 억제할 수 있어 TCO 절감으로 이어집니다. 개발자를 위해서는 수냉식 소형 워크스테이션 「TT-QuietBox」도 제공되고 있습니다.

넓은 모델 호환성

텍스트, 이미지, 영상 등 폭넓은 워크로드 (Workload)에 대응하며, Tenstorrent의 발표에 따르면 Hugging Face 상의 대부분의 공개 모델을 컴파일 (Compile) 및 실행할 수 있습니다. 새로운 모델에도 단기간에 대응할 수 있는 유연성을 갖추고 있습니다.

독점 없는 개방형 아키텍처 (Open Source & RISC-V)

x86이나 ARM처럼 특정 기업이 라이선스를 통제하는 구조와 달리, 오픈 명령어 집합인 RISC-V를 채택하고 있습니다. AI 컴파일러부터 실행 환경까지 소프트웨어 스택 (Software Stack) 전체를 오픈 소스로 제공하여, 벤더 락인 (Vendor Lock-in)을 구조적으로 회피할 수 있습니다.

데이터 이동에 최적화된 독립 코어 설계

연산량 (FLOPs) 증강으로 성능을 높이는 GPU 방식과 달리, 각 코어가 독립된 속도로 동작하며 데이터 이동을 유연하게 제어할 수 있습니다. MoE (Mixture of Experts) 모델이나 데이터 이동이 빈번한 워크로드에서 효율을 발휘하며, 이는 비용 측면에서도 나타납니다. Tenstorrent가 발표한 수치(DeepSeek 계열의 671B MoE 모델, 전용 추론 모드 활성화 시)에 따르면 100만 토큰당 $6, 350토큰/초로 명시되어 있습니다. 다만 양자화 (Quantization) 및 구성 등의 조건은 비공개이므로, 자사 워크로드에서의 재현성 확인을 권장합니다.

유연한 칩렛 (Chiplet) 방식

고성능 RISC-V CPU와 AI 가속기 (Tensix 코어)를 각각 칩렛으로 분리하였으며, Open Chiplet Atlas (OCA) 표준을 통해 용도에 따른 다이 (Die) 구성을 타사 기술과 조합하여 선택할 수 있습니다.

극복해야 할 과제

소프트웨어 생태계의 성숙도 부족

데이터 센터용 RISC-V 소프트웨어 스택은 x86이나 ARM만큼 포괄적이지 않으며, 특정 CPU 워크로드나 시장 수요를 완전히 충족하지 못하는 경우가 있을 수 있습니다.

고대역폭 메모리 (HBM) 미탑재

비용과 전력을 우선시하기 위해 HBM 대신 GDDR6를 채택하고 있어, 경제성은 높지만 HBM 수준의 메모리 대역폭이 필요한 워크로드에서는 약점이 될 수 있습니다. Tenstorrent 측은 각 칩에 내장된 SRAM과 칩 간 직접 연결을 통한 2D 토러스 메시 구조를 통해 HBM은 불필요하다고 보고 있습니다. 성능을 최대한 발휘하기 위해서는 SRAM을 유효하게 활용할 수 있는 소프트웨어 최적화가 중요합니다.

소규모 단위의 액세스 제한

개발용으로는 Wormhole 외에도 Blackhole 보드 단품 (p150a 등)도 제공되어 개별 구매 자체는 가능합니다. 일본 국내에서도 마쿠니카 (Macnica) 등의 정식 대리점을 통해 Wormhole/Blackhole을 입수할 수 있습니다. 다만 모두 가격이 견적 기반이며, AI 서비스 사업자나 서버 운영자 등 비교적 대규모 도입을 주요 대상으로 하고 있어 개인이나 소규모의 시용에는 여전히 일정 수준의 장벽이 남아 있습니다.

요약

Tenstorrent는 「AI 코어와 CPU 코어의 동일 다이 공존」, 「Ethernet 내장으로 인한 스케일 아웃 (Scale-out) 지향」, 「완전 오픈 소스 (OSS) 소프트웨어 스택」이라는 독자적인 설계 철학을 가지고 있습니다.

NVIDIA의 대체제로 즉시 사용할 수 있는 것은 아니지만, 락인 회피, 비용 절감, 유연한 추론을 목표로 하는 조직에게는 주목할 가치가 있습니다.

보급의 열쇠는 소프트웨어 생태계의 성숙도이며, TT-Forge의 프레임워크 대응 확대와 커뮤니티의 성장이 계속해서 주목할 포인트입니다.

참고 문헌 및 관련 링크

Introduction to Tenstorrent (Core Silicon Roadmap, HPC Asia 2025)
Tenstorrent Blackhole and Metalium For Standalone AI Processing - ServeTheHome
Blackhole Specifications - Tenstorrent Docs
Tenstorrent Announces Availability of TT-Ascalon
RISC-V CPU - Tenstorrent
TT-Forge - Tenstorrent Software
TT-Lang GitHub Repository
TT-Metalium Getting Started
Tenstorrent Enables AI at Scale with Industry-Leading Performance
Tenstorrent - Global Recognition Awards
Unleash your RISC-V Future with Tenstorrent's High Performance Ascalon RISC-V Processor (Troy Jones, RISC-V Summit 2025)
Tenstorrent、性能の新記録を樹立し「TT-Ascalon S」を発表、日本での事業展開を拡大（TT-Deploy JP, 2026年6月30日）
TT-Deploy: Serving DeepSeek and other models at scale - Tenstorrent

**D2D(Die-to-Die)**란 하나의 패키지 내에 나열된 여러 개의 다이(chip의 素片)끼리 직접 연결하는 것을 의미합니다. 기판을 가로지르는 PCIe와 같은 칩 간 연결과 달리, 수 mm 이하의 초단거리에서 저지연·저전력·광대역으로 연결한다는 특징이 있습니다. Tenstorrent는 이 물리 계층(배선 회로) 설계 자산(IP)에 대해 전문 회사인 Blue Cheetah Analog Design을 인수하여 내재화했습니다 (2025년 7월 발표).

다이 간 배선에 관한 규격이 두 가지가 있습니다. **BoW(Bunch of Wires)**는 OCP(Open Compute Project/Meta 주도 오픈 하드웨어 표준화 단체)가 제정한, 이름 그대로 '많은 배선 다발'로 병렬 연결하는 간단한 방식이며 구현이 용이하고 저비용입니다. 반면 **UCIe(Universal Chiplet Interconnect Express)**는 Intel, AMD, Arm, TSMC 등 주요 각사가 참여하는 산업 표준으로, PCIe/CXL 프로토콜과의 친화도가 높으며 서로 다른 벤더의 치프렛을 상호 연결하는 '공통어'를 목표로 합니다. Grendel은 이 개방적인 BoW/UCIe를 채택함으로써 특정 벤더에 구속되지 않는 치프렛 구성(제3장 OCA 사상)을 실현합니다. ↩︎ -
"Big RISC-V"는 Tenstorrent가 사용하는 통칭으로, 칩 내에 혼재하는 두 종류의 RISC-V 코어를 구분하는 명칭입니다. Blackhole에는 Tensix 코어 및 각종 컨트롤러의 제어를 담당하는 다수의 소형 'Baby RISC-V' 코어와, Linux를 구동할 수 있는 애플리케이션급의 대형 코어 2가지 계통이 있습니다. 후자에 채택된 것이 SiFive의 고성능 코어인 'X280'으로, 벡터 확장(RISC-V Vector Extention: RVV)을 갖추고 있어 병렬화가 어려운 순차 처리나 전체 제어를 담당합니다. 이 소형 코어군(Baby)에 비해 대형이라는 점에서 'Big RISC-V'라고 불립니다. 참고로 'Baby RISC-V'의 역할은 제2장에서 상세히 다룹니다. ↩︎

제1장에서 언급된 'Big RISC-V'(Linux를 구동하는 애플리케이션급 대형 코어, X280)가 칩 전체의 제어를 담당하는 반면, 'Baby RISC-V'는 각 Tensix 코어 내에 분산 배치된 소형의 전용 제어 코어입니다. OS를 구동하지 않고, NoC(On-Chip Network)를 통한 데이터 입출력이나 연산 유닛으로의 명령어 발행과 같은 '데이터 흐름 처리 역할'에만 집중합니다. 소형하고 다수라는 점이 단일 대형 코어(Big)와 대비됩니다. ↩︎

Insights

Tenstorrent 입문: 오픈 아키텍처로 겨냥하는 저비용 추론 칩

요약

핵심 포인트

서론

1. Blackhole의 전체상: Tensix·RISC-V·Ethernet을 1칩에 통합

칩 세대의 진화

Blackhole의 내부 구성: 온칩 메모리와 네트워크

주요 스펙 비교 (Wormhole / Blackhole)

2. Tenstorrent의 RISC-V 전략: 라이선스 IP 「Ascalon」과 칩 내장 코어

Ascalon-X: 고성능 코어

Ascalon-S: 고효율 코어

Tensix 코어와 RISC-V 코어의 역할 분담

3. 벤더 락인(Vendor Lock-in)을 깨다: Tenstorrent가 주도하는 칩렛 표준 OCA와 제품 스택

차세대 칩렛의 면면: Quasar·Athena 및 Grendel

OCA 채택으로 고객 측에 무엇이 변하는가

4. CUDA 대신 무엇을 사용하는가: TT-Forge·TT-NN·TT-Lang의 전체 모습

TT-Forge: MLIR 기반 컴파일러

TT-NN: 연산자 라이브러리

TT-Lang: Python 기반 DSL

5. TT-Metalium과 CUDA의 결정적인 차이: 데이터 이동을 "쓰는" 프로그래밍 모델

GPU 프로그래밍 모델과의 차이

6. Tenstorrent는 NVIDIA의 대안이 될 수 있는가: 차별화 요인과 현시점의 한계

차별화를 만드는 강점

극복해야 할 과제

요약

참고 문헌 및 관련 링크

참고 문헌 및 관련 링크

Discussion

댓글

AI 엔지니어 로드맵: 기초부터 전문가까지 단계별 가이드

엔 캐리 트레이드(Yen Carry Trade)가 이번 7월 4일 미국 시장에 불꽃을 일으킬 수 있습니다. 트레이더가 알아야 할 사항은 다음과

월스트리트가 로보틱스가 Nvidia 주가를 더 끌어올릴 것이라며 거액을 베팅하는 이유

빌더를 위한 GPT Image 2: 실제로 파이프라인의 어떤 노드를 삭제하는가?

엔 캐리 트레이드(Yen Carry Trade)가 이번 7월 4일 미국 시장에 불꽃을 일으킬 수 있습니다. 트레이더가 알아야 할 사항은 다음과

월스트리트가 로보틱스가 Nvidia 주가를 더 끌어올릴 것이라며 거액을 베팅하는 이유

빌더를 위한 GPT Image 2: 실제로 파이프라인의 어떤 노드를 삭제하는가?