
Tensordyne, 추론 성능을 높이기 위해 AI 행렬 연산을 로그(Logs)로 변환
요약
Tensordyne는 행렬 곱셈을 로그 변환을 통한 덧셈 연산으로 대체하여 AI 추론 성능을 극대화하는 'Napier' 엔진을 개발했습니다. 이 기술은 기존 Nvidia 및 AWS 하이브리드 아키텍처 대비 10배 이상의 성능 향상과 낮은 전력 소비를 목표로 합니다.
핵심 포인트
- 행렬 곱셈을 로그(Logarithms) 변환 후 덧셈으로 처리하여 연산 오버헤드 제거
- Napier 칩을 통해 내부적으로 로그 변환을 자동 처리하여 효율성 증대
- Nvidia 및 AWS 아키텍처 대비 10배 이상의 성능 향상 및 비용 절감 기대
- AI 추론 시 발생하는 메모리 벽 및 전력 소비 문제 해결에 집중

Tensordyne, 추론 성능을 높이기 위해 AI 행렬 연산을 로그(Logs)로 변환
본격적으로 시작하기에 앞서, 방대한 양의 노이즈가 섞인 데이터로부터 시뮬레이션, 모델링 및 통찰을 생성하기 위한 모든 종류의 고성능 컴퓨팅 (HPC)을 가능하게 하는 변환 (Transformations)을 만들어내는 수학 덕후들에게 경의를 표합니다.
변환은 이러한 코드의 핵심이며, 우리가 알고 있는 컴퓨팅 기술보다 수 세기 앞선 수학에 의존합니다. 온갖 종류의 멋진 변환들이 존재합니다.
제가 개인적으로 가장 좋아하는 것은 푸리에 변환 (Fourier transform)입니다. 이는 복잡한 신호를 구성 요소인 사인 (sine) 및 코사인 (cosine) 파형으로 분해하는 것으로, 프랑스 계몽주의 시대의 수학자이자 물리학자인 Jean-Baptiste Joseph Fourier의 이름을 따왔습니다. 이는 물론 HPC와 AI 코드 모두의 핵심 구성 요소이지만, 연필로 직접 하기에는 정말 악몽 같은 작업입니다. (제 머리에 총을 겨눈다 해도, 책장을 뒤져서 공부할 시간을 주지 않는 한 오늘날의 저는 할 수 없을 것입니다. . . .)
더 최근의 변환 사례로는 AI 추론 (inference) 시 메모리 벽 (memory wall)을 줄여주는 Google의 TurboQuant 양자화 (quantization)가 있습니다. TurboQuant는 AI 워크로드의 입력 벡터를 가져와 벡터에 무작위 회전 행렬 (rotation matrix)을 적용하고, 해당 데이터에 스칼라 양자화 (scalar quantization)를 수행한 다음, 다시 벡터 공간으로 회전시킵니다. (수학적으로는 이보다 더 복잡합니다.) 결과적으로 TurboQuant는 키-값 캐시 (key-value cache)를 6배 압축합니다. (이 Google의 혁신 기술에 대해 정말 깊이 파고들 필요가 있습니다. 늦어져서 죄송합니다.)
추론에 집중하는 2세대 AI 칩 스타트업 중 하나인 Tensordyne는 자사의 “Napier” AI 추론 엔진의 중심에 독자적인 변환 기술을 갖추고 있으며, 많은 훌륭한 아이디어들이 그러하듯, 일단 말하고 나면 매우 당연하고 완벽하게 느껴지는 방식입니다. 핵심은 이렇습니다. 숫자로 이루어진 행렬을 곱하는 것은 행렬 곱셈 유닛(matrix multiplier units)을 갖춘 컴퓨터에게조차 어려운 일입니다. 하지만 숫자 더미를 더하는 것은 훨씬 쉽습니다. (여러분의 뉴런조차 곱셈보다 덧셈을 더 좋아합니다.) Tensordyne 창립자들의 핵심 통찰은 데이터를 로그(logarithms)로 변환하면, 이를 더함으로써 곱셈 오버헤드(multiplication overhead)를 완전히 피할 수 있다는 것입니다. 그리고 르네상스 후기의 스코틀랜드 수학자이자 천문학자, 물리학자인 존 네이피어(John Napier)의 이름을 딴 Napier 칩은—그는 로그를 발명했으며 소수점의 초기 사용자 중 한 명으로서 우리를 부동 소수점 처리 장치(floating point processing unit)의 길로 인도한 최초의 괴짜 중 한 명이었습니다—이 모든 행렬에서 로그로의 변환을 내부적으로, 보이지 않게 처리합니다.
결론은 이렇습니다. 이러한 로그 수학(log math)으로의 전환은 Nvidia와 Amazon Web Services의 하이브리드 아키텍처보다 10배(an order of magnitude) 이상의 성능 향상, 더 낮은 가격, 그리고 더 낮은 전력 소비를 제공합니다. Nvidia가 축적한 막대한 부가 적절하게 보여주듯, 이는 AI 추론이 분명히 필요로 하는 것입니다. 제가 즐겨 말하듯, 경제적 대체(economic substitution)는 하나의 법칙이지, 단순히 좋은 아이디어에 그치는 것이 아닙니다. 만약 Tensordyne의 아키텍처가 성공하여 모든 대형 추론 엔진을 지원할 수 있게 되고, Tensordyne가 대량 생산을 위한 충분한 HBM을 확보할 수 있다면, 이는 AI 하드웨어 분야에서 DeepSeek 모먼트(DeepSeek moment)가 될 수도 있습니다.
Tensordyne의 공동 창립자 중 한 명인 RK Anand는 The Next Platform과의 인터뷰에서 Broadcom이 Napier 컴퓨팅 엔진(compute engine)의 칩 셰퍼드(chip shepherd)이며, Broadcom이 전 세계에서 세 번째로 큰 HBM 메모리 구매자이자 Taiwan Semiconductor Manufacturing Co(TSMC)로부터 칩 웨이퍼를 세 번째로 많이 구매하는 기업이기 때문에, 공급 부족 문제가 Tensordyne에게 다른 누구보다 더 큰 이슈가 되지는 않을 것이라고 말했습니다.
Anand는 "우리가 리드 타임(lead times) 내에만 있다면, 고객이 필요로 하는 어떤 물량이라도 확보할 수 있습니다"라고 강조했습니다.
이제 Tensordyne의 인력에 대해 조금 알아보고, 코드네임이 "Pareto"인 이들의 AI 추론(inference) 시스템 아키텍처를 살펴보겠습니다. AI 추론의 파레토 곡선(Pareto curves)이 AI 시스템 구매의 결정적인 요인이 될 것이라는 점을 고려하면 매우 적절한 코드네임입니다.
자동차에서 데이터센터로의 도약
RK Anand와 Gilles Backhus는 2017년 9월 Recogni라는 회사를 공동 창립했으며, 당시 아이디어는 자동차 산업을 위한 AI 추론(inference) 시스템을 만드는 것이었습니다. Anand는 실리콘밸리에서 오랜 경력을 쌓아왔으며, 두 공동 창립자 모두 신호 처리(signal processing) 전문가라는 점은 놀라운 일이 아닙니다.
Tensordyne의 최고 제품 책임자(CPO)인 Anand는 1988년 Manipal Institute of Technology에서 전자 및 통신 공학 학사 학위를 받았으며, 1990년 Syracuse University에서 컴퓨터 공학 석사 학위를 받았습니다. 그는 졸업 후 Sun Microsystems의 마이크로프로세서(microprocessor) 부서에서 시니어 엔지니어링 매니저로 6년 반 동안 근무했으며, 1996년 7월 Cisco Systems에 맞서 데이터센터 라우터(datacenter routers) 시장을 공략하기 위해 설립된 Juniper Networks의 창립 엔지니어링 부사장(founding vice president of engineering)을 역임했습니다. Anand는 2012년 9월까지 Juniper에 머물렀으며, 2년 후에는 전이중(full duplex) 무선 네트워크를 발명한 Kumu Networks의 최고 경영자(CEO)로 재직했습니다. (이곳에서 Anand는 Backhus를 만나게 되는데, Backhus는 Intel에서 4년 동안 최고 기술 책임자(CTO)를 역임했던 Sachin Katti 교수 지도하에 Stanford University에서 전이중 무선에 관한 논문을 작성했습니다.) 그는 빈 주차 공간을 찾는 앱인 OttoQ라는 스타트업을 운영했으나, Recogni가 시작되면서 폐쇄되었습니다.
회사의 AI 부사장(VP of AI)인 Backhus는 2015년 뮌헨 공과대학교(Technical University of Munich)에서 전기공학(elektrotechnik) 석사 학위를 받았으며, 뮌헨의 머신러닝 (machine learning) 스타트업에 바로 뛰어들었다가, Stanford University에서 논문 작업을 했던 Kumu Networks에서 짧게 근무했습니다. Backhus는 Anand와 함께 Tensordyne를 설립하기 전까지 몇 년 동안 몇몇 스타트업에서 근무했습니다.
두 사람은 3번의 라운드에 걸쳐 1억 7,600만 달러를 유치하고 120명 이상의 인력을 보유한 회사를 구축했으며, 최근 Napier 컴퓨팅 엔진(compute engine)의 테이프아웃(tape out)을 성공적으로 마쳤습니다. 2022년 7월, Anand와 Backhus는 자율주행 자동차를 위한 ADAS 시스템 및 기타 임베디드 자동차 시스템 전문가인 Marc Bolitho를 Tensordyne의 최고 경영자(CEO)로 영입했습니다. 이는 회사가 자동차 분야에서 벗어나 데이터센터(datacenter) 방향으로 피벗(pivoting)하기 시작한 시점이었습니다.
이는 향후 몇 년 동안 AI가 전 세계적으로 수조 달러 규모의 새로운 IT 예산을 주도하고 있다는 점을 고려할 때, 분명히 올바른 결정이었습니다. 우리가 얼마나 많은 자동차를 사든 간에, AI 학습(training)과 추론(inference) 시장에서 압도적인 시장 점유율을 차지하고 있는 Nvidia로부터 매출을 일부 가져올 수 있는 마진(margin)보다 더 달콤한 것은 없습니다.
지금까지는 그렇습니다. Nvidia는 거대하고 수익성 높은 비즈니스를 유지하겠지만, 결국 다른 기업들도 HBM과 칩 웨이퍼(chip wafers)에 접근하게 될 것이고, 그들은 혁신할 것이며, 최소한 일부 비즈니스 영역에서는 Nvidia를 이길 것입니다. 이는 12,000년 전 최초의 기호 논리(symbolic logic)가 점토에 새겨진 순간 AI 자체가 필연적이었던 것만큼이나 불가피한 일입니다.
텐서 흐름(Tensor Flows)을 위한 로그 다이너모(Logarithmic Dynamo)
안타깝게도, 우리는 아직 Tensordyne의 Napier 칩 아키텍처(architecture)에 대한 심층 분석을 진행하지 못했습니다. 우리는 지금부터 2027년 2분기 말에 Napier 칩이 고객에게 출하되기 시작할 때 사이의 어느 시점에 분석이 나올 것으로 예상합니다. 현재 Anand에 따르면, 계획은 2026년 말까지 Napier 엔진에 대한 클라우드 접근 권한을 확보하고, 2027년 1분기에 고객들이 이를 사용하는 베타 TDN Pod 시스템을 제공받는 것입니다.
하지만 회사는 시스템 아키텍처와 이것이 세상에 존재하는 다른 고성능 AI 추론(inference) 시스템들과 비교했을 때 어떤 위치에 있는지에 대한 정보를 우리에게 제공했습니다.
Backhus는 Napier 칩의 내부에서 어떤 일이 일어나고 있는지에 대해 약간의 힌트를 주었습니다:
"주요 연산 워크호스(workhorse)는 48개의 코어를 가지고 있으며, 매우 최첨단이고 트랜스포머(transformer) 아키텍처에서 영감을 받은 어퍼처(aperture)를 갖추고 있습니다. 기본적으로 128x128 시스톨릭 어레이(systolic array)이지만, 예를 들어 새로운 어큐뮬레이터(accumulator) 설계와 같은 많은 추가 기능을 갖추고 있습니다. 또한 일부 고객들에게 여전히 중요한 레거시(legacy) AI 워크로드(workloads)도 매우 효율적으로 처리할 수 있습니다."
이 칩에는 48개의 코어가 있으며, 이들은 벡터 프로세싱 유닛 (vector processing units)과 결합되어 있습니다. 벡터 프로세싱 유닛에는 산술 유닛 (arithmetic units)도 있지만, 룩업 테이블 (lookup table)을 사용할 수도 있으며 완전히 병렬로 작동할 수 있습니다. 예를 들어, 행렬 곱셈 (matrix multiply) 끝에 소프트맥스 (softmax)가 있는 경우, 이를 순차적으로 할 필요 없이 병렬로 처리할 수 있습니다. 기본적으로 이들을 인터리빙 (interleave)하고 파이프라이닝 (pipeline)할 수 있습니다. 그리고 RISC-V 코어가 있으며, 이로써 실리콘 (silicon) 상에 구현된 세 가지 컴퓨팅 범주가 완성됩니다.
다음은 Napier 칩의 다이 샷 (die shot)입니다:

자세히 살펴보면, 코어의 좌우에는 HBM 컨트롤러 (HBM controllers)가 있고, 상단과 하단에는 I/O 컨트롤러 (I/O controllers)로 보이는 것들이 있습니다. RISC-V 코어는 북쪽과 남쪽 블록에 내장되어 있을 수도 있지만, 그렇지는 않을 것 같습니다.
네 개의 컴퓨팅 뱅크 (banks of compute)를 볼 수 있는데, 각 뱅크는 6개의 Napier 로그 코어 (Napier logarithmic cores)로 구성된 두 개의 열을 가지고 있으며, 벡터 엔진 (vector engines)은 아마도 그곳에 내장되어 있을 것입니다.
이 열들의 중앙에는 거대한 SRAM 메모리 뱅크 (banks of SRAM memory)로 추정되는 영역이 있으며, 더 자세히 들여다보면 무언가로 된 작은 사각형 네 개가 보입니다. 제 추측으로는 이 네 개의 작은 사각형 각각이 4개의 RISC-V 코어 블록이며, 따라서 장치당 총 16개의 코어가 있는 것으로 보입니다.
“랙(Rack)당 320개의 Xeon 코어가 있으며, 추가로 랙당 4,608개의 RISC-V 코어가 있습니다,”라고 Backhus는 확인했습니다. “우리는 전체 CPU 문제에 대해 2단계 접근 방식(two-tiered approach)을 취하고 있습니다. AI 연산(AI compute)에 매우 근접하여 발생하며, 토큰 루프(token loop) 및 LLM의 자기회귀 루프(autoregressive loop)의 일부로 수행되는 작업의 대부분은 RISC-V 코어에서 실행됩니다. 따라서 MoE 라우팅(MoE routing)이 그곳에서 수행되며, 특정 토큰을 폐기하고자 할 때 특정 사전 규칙(dictionary rules)을 확인하는 등의 작업이 이루어집니다. 그 다음, 상대적으로 빈도가 낮은 추론 서빙(inference serving) 세계와 인터페이스하는 작업은 Intel Xeon에서 수행됩니다. 그리고 만약 200 Gb/sec 이더넷(Ethernet) 링크를 통해 다른 포드(pod)로 넘어가고 싶다면, 그렇게 할 수도 있습니다. 우리 시스템에는 매우 많은 대역폭(bandwidth)이 있습니다. 다른 시스템으로 이동하는 데 사용할 수 있는 64개의 200 Gb/sec 링크를 랙당 보유하고 있으며, 이는 매우 높은 대역폭의 인터페이스입니다.”
Napier 칩이 칩렛(chiplets)으로 구성되어 있는지 아니면 단일 모놀리식 다이(monolithic die)인지는 명확하지 않습니다. Anand가 저에게 확인해 준 것은 RISC-V 코어는 1.5 GHz로 동작하고 로그 코어(log cores)는 1.33 GHz로 동작하며, Napier 컴플렉스(complex) 전체에는 TSMC의 3나노미터(nanometer) 공정으로 구현된 1,380억 개의 트랜지스터가 포함되어 있다는 점입니다. 이것은 매우 강력한 칩입니다. 하지만 중요한 점이 있습니다. Napier 컴플렉스는 현재 CMOS 공정의 레티클 한계(reticle limit)에 전혀 근접하지 않았습니다. 따라서 크기가 작습니다. 또한 Napier 칩은 “Blackwell” B300 GPU 가속기의 1,200와트(watts)와 비교했을 때 단 300와트만을 소모합니다.
이것이 바로 부동 소수점(floating point numbers)을 곱하는 대신 부동 소수점의 로그(logs)를 더할 때 발생하는 현상입니다.
이는 또한 이러한 장치 288개가 들어있는 하나의 랙을 공랭식(air-cooled)으로 냉각할 수 있음을 의미하며, 이는 대도시 데이터센터를 운영하면서 대형 GPU 슈퍼컴퓨터의 전력 밀도(power density)나 무게를 쉽게 감당할 수 없는 헤지펀드, 대형 은행, 보험사 등에게 큰 이점이 될 것입니다.
다음은 Napier 칩의 사양입니다:

Napier 칩은 NVFP4, FP8, 그리고 FP16 데이터 포맷과 처리를 지원하며, 이는 현재 AI 추론 (Inference)에 필요한 모든 것입니다. 이 칩은 밀집된 (dense) FP8 정밀도에서 2.1 페타플롭스 (petaflops)를 처리합니다. 칩에는 4개의 HBM4 메모리 뱅크가 있으며, 각 뱅크는 36 GB로 전체 시스템의 총 용량은 144 GB이며 4.7 TB/sec의 대역폭 (bandwidth)을 제공합니다. 중요한 점은 칩에 256 MB의 SRAM이 탑재되어 있어, 합산 대역폭 (aggregate bandwidth)이 40 TB/sec에 달한다는 것입니다. 이는 현재 출하되는 많은 GPU와 비교할 만한 HBM 용량 및 대역폭입니다.
Tensordyne는 이러한 칩 9개를 하나의 컴퓨팅 트레이 (compute tray)에 배치하며, 호스트 제어 및 일부 디코딩 (decode) 작업을 위해 40코어 Xeon 프로세서를 탑재합니다. 이 호스트가 얼마나 많은 메모리를 보유하고 있는지는 명확하지 않으나, 다음 회로도 (schematic)를 바탕으로 볼 때 그리 많아 보이지는 않습니다:

AI 자동 생성 콘텐츠
본 콘텐츠는 The Next Platform의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기