Taalas가 1억 6,900만 달러의 투자금을 확보하여 LLM을 칩에 직접 인쇄하는 방법
요약
Taalas가 LLM의 가중치와 아키텍처를 ASIC의 물리적 트랜지스터 레이아웃에 직접 새기는 혁신적인 기술을 위해 1억 6,900만 달러의 투자를 유치했습니다. 이 방식은 HBM 없이 아날로그 컴퓨팅 기술을 활용해 추론 효율성을 극대화하지만, 모델 변경이 불가능하다는 리스크가 있습니다.
핵심 포인트
- LLM 가중치를 실리콘에 물리적으로 인코딩하여 HBM 없이 추론
- 아날로그 저항 네트워크를 활용해 전력 및 지연 시간 혁신적 절감
- 특정 모델 전용 고정 기능(Fixed-function) ASIC 설계 방식
- 모델 노후화 시 칩의 가치가 상실되는 경제적 리스크 존재
Taalas는 대부분의 칩 엔지니어들이 범주 오류(category error)라고 간주했던 일, 즉 특정 LLM(대규모 언어 모델)을 실리콘에 영구적으로 구워 넣는(bake) 작업을 수행하기 위해 방금 1억 6,900만 달러를 조달했습니다. "AI 워크로드에 최적화됨"이나 "트랜스포머(transformers)를 효율적으로 실행함" 수준이 아닙니다. 말 그대로 가중치(weights), 아키텍처(architecture)를 포함한 모든 것을 맞춤형 ASIC(주문형 반도체)의 물리적 트랜지스터 레이아웃에 하드와이어드(hard-wired) 방식으로 새겨 넣는 것입니다.
이것은 완전히 다른 도박입니다.
2026년 초 AI 칩 산업의 대부분은 여전히 동일한 전쟁을 치르고 있습니다. 더 많은 SRAM 대역폭, 더 나은 메모리 계층 구조, 더 빠른 HBM(고대역폭 메모리) 상호 연결을 확보하기 위한 싸움입니다. Nvidia의 H100 및 B200 생태계가 학습(training) 분야를 지배하고 있습니다. Groq이나 Cerebras와 같이 추론(inference)에 집중하는 기업들조차 어떠한 모델이라도 로드할 수 있는 범용 고속 메모리 칩을 구축하고 있습니다. Taalas는 정반대의 방향으로 가고 있습니다. 하나의 칩. 하나의 모델. 가중치 재로드 없음. HBM도 전혀 없음.
그 논리는 명확합니다. 만약 모델이 절대 변하지 않는다면, 프로그래밍 가능한 메모리(programmable memory)는 필요하지 않습니다. 가중치를 칩의 물리적 구조—아날로그 저항 네트워크(analog resistor networks), 로그 도메인 산술(log-domain arithmetic), 고정 기능 데이터패스(fixed-function datapaths)—에 인코딩하면 추론에서 혁신적인 효율성 이득을 얻을 수 있습니다. 전력 소비가 줄어듭니다. 지연 시간(latency)이 줄어듭니다. 토큰당 비용이 줄어듭니다.
이러한 트레이드오프(trade-off)가 대규모 규모에서 경제적 타당성을 갖느냐가 진짜 질문입니다. 그리고 그것은 명확하지 않습니다.
핵심 요약 (Key Takeaways)
- Taalas는 2026년 초, LLM 가중치(weights)를 칩의 실리콘 구조에 물리적으로 인코딩하여 HBM(고대역폭 메모리)이나 외부 가중치 저장 장치가 전혀 필요 없는 ASIC(주문형 반도체)을 구축하기 위해 1억 6,900만 달러를 조달했습니다.
- 핵심 메커니즘은 저항 네트워크 가중치 인코딩(resistor network weight encoding) 및 로그 도메인 산술(log-domain arithmetic)과 같은 아날로그 컴퓨팅(analog computing) 기술을 포함할 가능성이 높으며, 이를 통해 디지털 MAC(Multiply-Accumulate) 연산보다 훨씬 적은 전력 비용으로 단일 트랜지스터 곱셈을 가능하게 합니다.
- 모델이 재기록 불가능(non-rewritable)하기 때문에, Taalas 칩은 고정되어 배포된 모델에 대한 추론(inference) 워크로드에만 독점적으로 유효합니다. 이 방식으로는 아키텍처상 학습(training)이 불가능합니다.
- 개발자들이 Nintendo DS 카트리지 및 H.264 미디어 프로세서 ASIC과 비교하는 것은 Taalas를 비주류 아이디어가 아닌, 고정 기능(fixed-function) 하드웨어의 자연스러운 진화로 규정합니다.
- 주요 경제적 리스크는 모델의 노후화(obsolescence)입니다. 특정 모델 버전에 하드코딩된 칩은 해당 모델이 대체되는 즉시 잔존 가치가 0이 됩니다.
고정 기능 하드웨어는 새로운 것이 아닙니다. 타겟이 새로운 것입니다.
연산 집약적인 작업을 위한 고정 기능 가속(Fixed-function acceleration)은 오랜 기록을 가지고 있습니다. H.264 비디오 코덱 ASIC이 가장 명확한 전례입니다. 2010~2015년경 모바일 비디오 인코딩이 보편화되었을 때, 칩 설계자들은 이를 실시간으로 처리할 만큼 충분히 빠른 범용 프로세서를 만들지 않았습니다. 대신 그들은 단 한 가지 일을 극도로 효율적으로 수행하는 전용 실리콘을 만들었습니다. 여러분의 iPhone 미디어 엔진에는 여전히 AV1, HEVC, ProRes를 위한 전용 고정 기능 블록이 있습니다. 그것들을 재프로그래밍할 수는 없습니다. 그리고 그럴 필요도 없습니다.
동일한 논리가 초기 GPU 설계, 이후 행렬 연산을 위한 TPU, 그리고 Apple의 Neural Engine을 이끌었습니다. 고정 기능 가속의 각 세대는 유연성(flexibility)을 효율성(efficiency)과 맞바꿉니다. Taalas는 LLM 추론을 위해 그 곡선을 논리적 극한까지 밀어붙이고 있습니다.
2026년의 구체적인 트리거는 엣지(edge)에서의 추론 경제성입니다. OpenAI, Anthropic, Google과 같은 API를 통한 클라우드 기반 LLM 추론은 토큰당 비용이 발생하며 인터넷 연결이 필요합니다. LLM이 임베디드 시스템(embedded systems), IoT 기기, 자동차 하드웨어 및 소비자 제품으로 이동함에 따라, 쿼리당 한계 비용이 거의 제로에 가까운 로컬 추론(local inference)에 대한 수요는 실질적이며 증가하고 있습니다. Groq의 LPU는 프로그래밍 가능한 칩(programmable-chip) 방향에서 이 문제에 접근합니다. Taalas는 반대편에서 접근합니다. 즉, 가중치(weights)를 칩 자체의 일부로 만듦으로써 메모리 병목 현상(memory bottleneck)을 완전히 제거하는 것입니다.
2026년 Yahoo Finance가 보도한 1억 6,900만 달러 규모의 투자 유치는 진지한 자본이 이 틈새 시장이 실행 가능하다고 판단하고 있음을 시사합니다. 투자자들의 논거는 아마도 특정 모델 버전이 제품 수명 주기 동안 고정되는 엔터프라이즈(enterprise) 또는 OEM 계약에 기반할 것입니다. 사용자가 최신 모델을 기대하는 소비자용 스마트폰이 아니라, 자동차 ECU(Electronic Control Units)나 산업용 컨트롤러를 생각하면 됩니다.
Mythic AI는 이전에 아날로그 가중치 저장(analog weight storage)을 탐구했으나 피벗(pivot)했습니다. Taalas가 이 정도 규모로 자금을 조달한다는 것은 인코딩 메커니즘(encoding mechanism) 자체에 차별화된 IP(지식재산권)가 있음을 시사합니다.
Taalas가 실제로 실리콘에 가중치를 인코딩하는 방법
"모델을 칩에 인쇄한다"라는 문구는 물리적 메커니즘을 이해하기 전까지는 마케팅 용어처럼 들립니다.
트랜스포머(Transformer) 모델의 가중치는 근본적으로 부동 소수점(floating-point) 숫자의 행렬입니다. 표준 추론 칩에서 이러한 가중치는 SRAM 또는 HBM에 존재하며, 런타임(runtime) 중에 로드되고 읽히며 입력 활성화 값(input activations)과 곱해집니다. 전력과 지연 시간(latency) 측면 모두에서 메모리 액세스 비용이 병목 현상이 됩니다. Taalas는 그 단계를 제거합니다.
기술적으로 실현 가능하며 r/singularity와 같은 포럼의 개발자 토론에서 탐구된 내용과 일치하는 가장 그럴듯한 메커니즘은 **저항 네트워크를 통한 아날로그 가중치 저장 (analog weight storage via resistor networks)**입니다. 가중치(Weight) 값은 칩의 상호 연결 계층(interconnect layer)에서 물리적인 전도도(conductance) 값으로 인코딩됩니다. 네트워크를 통해 전류가 흐를 때, 옴의 법칙(Ohm's law)이 곱셈을 수행합니다. 즉, 전류와 전도도의 곱이 가중치가 적용된 출력값이 됩니다. MAC(Multiply-Accumulate) 연산을 위한 클록 사이클(clock cycles)이 필요 없습니다. 메모리 페치(memory fetch)도 없습니다. 연산 그 자체가 곧 회로입니다.
곱셈이 로그 영역에서 덧셈이 되는 **로그 영역 산술 (log-domain arithmetic)**과 결합하면, 연산당 트랜지스터 수를 더욱 줄일 수 있습니다. 단일 트랜지스터 곱셈이 물리적으로 가능해집니다.
트레이드오프(trade-off)는 노이즈 민감도와 제한된 정밀도(precision)입니다. 아날로그 회로는 드리프트(drift) 현상이 발생합니다. 온도가 변하면 저항도 변합니다. 이것이 바로 지난 40년 동안 디지털 칩이 컴퓨팅 시장을 제패한 정확한 이유입니다. 디지털은 결정론적(deterministic)이기 때문입니다.
LLM의 경우, 정밀도 허용 오차(precision tolerance)가 과학 계산(scientific computing)보다 더 관대합니다. INT8 또는 INT4로 실행되는 양자화된 모델(Quantized models)은 이미 4~8비트의 정밀도가 추론 품질(inference quality)을 위해 종종 충분하다는 것을 보여줍니다. 해당 정밀도 범위에서의 아날로그 인코딩은 전체 FP32를 사용하는 것보다 다루기 쉽습니다. 이것이 해결된 문제는 아니지만, 물리적으로 불가능한 것도 아닙니다.
왜 "HBM 없음"이 핵심 기술적 주장인가
HBM은 비용(dollars)과 전력 측면 모두에서 비쌉니다. H100 SXM5는 약 3.35 TB/s의 대역폭(bandwidth)으로 작동하는 80GB의 HBM3e를 탑재하고 있습니다. 이 대역폭은 하이엔드 구성에서 메모리 서브시스템에만 약 300~400W의 전력을 소모합니다. 고정된 모델에 대한 추론을 수행할 때, 당신은 이미 알고 있는 가중치를 연산 유닛으로 스트리밍하는 데 그 모든 전력을 소비하고 있는 것입니다.
만약 가중치(weights)가 칩 자체의 아날로그 구조(analog fabric)에 인코딩되어 있다면, 가중치 "검색(retrieval)"은 즉각적입니다. 그것은 말 그대로 전선의 저항값일 뿐입니다. 가중치 접근을 위한 전력 소비는 거의 제로(zero)에 가깝게 떨어집니다. 이것이 Taalas의 효율성 주장이 겉보기에 터무니없지 않은 이유입니다. 물리 법칙이 이를 뒷받침하며, 특히 고정된 모델에 대한 추론(inference)의 경우 더욱 그러합니다.
제약 사항은 명백합니다. 가중치를 변경할 수 없다는 것입니다. 칩 자체가 곧 모델입니다. 모델의 품질을 개선하는 펌웨어 업데이트를 하려면 새로운 칩이 필요합니다.
고정 기능(Fixed-Function) 비유가 한계에 부딪히는 지점
ALU(산술 논리 장치), FPU(부동 소수점 장치), H.264 인코더, AV1 디코더 — 이들은 모두 고정 기능(fixed-function) 장치입니다. 모두 대상 워크로드에 대해 매우 효율적입니다. 하지만 그 범위를 벗어나면 완전히 무용지물입니다. 역사적 패턴은 일관적입니다. 대상 연산이 안정적이고 대량으로 발생하는 경우, 고정 기능 하드웨어가 효율성 측면에서 승리합니다.
하지만 LLM은 비디오 코덱이 겪지 않았던 '안정성 문제'를 가지고 있습니다.
GPT-4는 대체되었습니다. Llama 2는 Llama 3로, 다시 3.1로, 그리고 그 뒤를 잇는 파생된 미세 조정(fine-tune) 모델들로 대체되었습니다. 2024~2026년 사이의 모델 개선 주기는 이전의 그 어떤 소프트웨어 카테고리보다 빠르게 움직였습니다. llama-3.1-70B-instruct에 맞춰 하드코딩된 칩의 유효 수명은, 해당 특정 체크포인트(checkpoint)가 대상 애플리케이션에서 선호되는 옵션으로 얼마나 오래 남아 있느냐에 직접적으로 달려 있습니다.
이 지점에서 개발자 토론에서 나오는 Nintendo DS 카트리지 비유는 적절하면서도 동시에 한계가 있습니다. DS 카트리지는 게임당 고정 기능(fixed-function)이었지만, 게임은 머신러닝(ML) 모델처럼 더 나은 버전의 자기 자신에 의해 대체되지 않습니다. 2006년의 DS 타이틀은 여전히 의도한 대로 작동합니다. 하지만 표준 벤치마크에서 3배 더 나은 성능을 가진 후속 모델로 교체된 모델을 위한 추론 칩은, 그저 전자 폐기물(e-waste)일 뿐입니다.
이 경제성이 성립하려면 — 그리고 이것이 매우 중요한 가설입니다 — 모델 버전의 안정성이 3~5년 동안 허용될 수 있는 배포 유스케이스(use cases)가 존재해야 합니다. 자동차 및 산업 제어 분야가 명백한 후보입니다. 모델이 감사 가능해야 하고 동결(frozen)되어야 하는 기업 컴플라이언스 환경도 이에 부합합니다. 소비자용 애플리케이션은 거의 확실히 해당되지 않습니다.
하드코딩된 ASIC vs. 프로그래밍 가능한 추론 가속기
| 기준 | Taalas 하드코딩된 ASIC | Groq LPU | Nvidia H100 (추론) |
|---|---|---|---|
| 가중치 저장 (Weight Storage) | 실리콘에 인코딩됨 (아날로그) | 온칩 SRAM | 외부 HBM3e |
| ... |
비교는 극명합니다. Groq의 LPU 아키텍처 — 결정론적(deterministic)이며, SRAM 기반이고, 외부 메모리가 없음 — 는 이미 프로그래밍 가능한 추론의 효율성 한계(efficiency frontier)를 향해 나아가고 있습니다. Taalas의 도박은 Groq의 방식조차 프로그래밍 가능성 오버헤드(programmability overhead) 때문에 전력과 비용 측면에서 손해를 보고 있다는 점입니다. 그것이 사실일 수도 있습니다. 하지만 Groq는 새로운 하드웨어 없이도 모델을 업데이트할 수 있습니다. Taalas는 불가능합니다.
기업용 클라우드 추론의 경우, 유연성 측면에서는 Groq나 H100 클러스터가 승리합니다. 임베디드, 대량 생산, 안정적인 모델 배포의 경우, 만약 아날로그 정밀도가 실제 실리콘 환경에서도 유지되고 대상 모델이 NRE(비반복적 엔지니어링 비용) 비용을 정당화할 만큼 충분히 오랫동안 유효하다면, Taalas의 단위 경제성(unit economics)은 매우 매력적일 수 있습니다.
실제로 누가 관심을 가져야 하는가
추론 파이프라인을 구축하는 개발자 및 ML 엔지니어는 Taalas가 정밀도 벤치마크를 발표할 때 이를 주의 깊게 살펴봐야 합니다. 아날로그 가중치 인코딩은 비결정론(non-determinism)을 유발합니다. 만약 귀하의 애플리케이션이 결정론적 출력(deterministic outputs)을 요구한다면 — 컴플라이언스 시스템, 안전 필수 인프라 등 — 이는 매우 엄격한 제약 조건이 됩니다. 만약 귀하의 애플리케이션이 약간의 출력 변동을 허용한다면 — 대부분의 소비자 대상 LLM 제품들이 명백히 그러하듯 — 이는 덜 문제가 될 것입니다.
자동차 OEM, 산업용 IoT 기업, 그리고 가전제품 제조업체의 **하드웨어 제품 팀 (Hardware product teams)**은 현재 2027~2028년의 추론 (inference) 요구 사항을 평가해야 합니다. 만약 배포될 모델이 제품 수명 주기 동안 고정된 상태로 유지될 가능성이 높다면, Taalas의 전력 및 비용 프로필은 진정으로 매력적일 수 있습니다.
**AI 인프라 투자자 (AI infrastructure investors)**는 Taalas가 어떤 모델 카테고리를 가장 먼저 목표로 하는지에 주목해야 합니다. 1억 6,900만 달러의 자금 조달은 최소한 몇몇 설계 수주 (design wins) 또는 의향서 (letters of intent)를 확보했음을 암시합니다. 그들이 가장 먼저 하드코딩 (hardcoding)하는 특정 모델 체크포인트 (model checkpoint)는 그들의 시장 진입 (go-to-market) 가설에 대해 많은 것을 드러냅니다.
기회와 리스크, 명확한 진술
기회는 실재합니다. 온디바이스 AI (on-device AI)를 탑재하여 수백만 대를 출하하는 모든 제품의 경우, 추론 전력의 10배 감소는 제품 마진에 영향을 미치는 배터리 수명, 발열 (thermals), 또는 비용 절감으로 직결됩니다. 만약 Taalas의 전력 관련 주장이 실제 실리콘 검증 (silicon validation) 하에서 입증된다면, OEM의 수요는 상당할 수 있습니다.
리스크 또한 실재합니다. 하드코딩된 방식은 새로운 범주의 기술 부채 (tech debt)를 생성합니다. 고정된 모델이 담긴 칩을 탑재한 제품을 출시한다는 것은 AI 구성 요소를 출하 이후에 개선할 수 없음을 의미합니다. 소프트웨어와 같은 업데이트 주기를 기대하는 고객들은 강력하게 반발할 것입니다. 제품 팀은 사전에 기대치를 명확히 설정해야 하며, 그들의 배포 기간이 실제로 칩의 유효 수명과 일치하는지 확인해야 합니다.
이러한 제약이 자산이 되는 시나리오가 하나 있습니다. 바로 규제 산업 (regulated industries)입니다. 의료, 금융, 국방 분야는 점점 더 감사 가능한 (auditable), 동결된 모델 배포를 요구하고 있습니다. 모델을 업데이트할 수 없는 칩은 이러한 맥락에서 제약이 아니라 컴플라이언스 (compliance) 기능이 됩니다.
다음 단계
핵심 통찰은 이것입니다: Taalas는 칩에 소프트웨어를 설치하는 것이 아닙니다. 이 회사는 가중치 값 (weight values)을 실리콘 구조의 아날로그 전도성 특성 (analog conductance properties)에 인코딩하여, 모델을 하드웨어로부터 물리적으로 분리할 수 없게 만듭니다. 이는 현재 시장에 나와 있는 다른 모든 추론 가속기 (inference accelerator)와 구조적으로 구별됩니다.
향후 612개월 동안 실리콘 벤치마크 (silicon benchmarks)가 결정적인 데이터가 될 것입니다. 이론적인 아날로그 효율성 (analog efficiency)과 실제 환경의 노이즈 내성 성능 (noise-tolerant performance) 사이의 격차는 상당하며, 그 데이터가 1억 6,900만 달러의 투자가 적절했는지를 결정할 것입니다. 만약 벤치마크 결과가 유지된다면, 테이프아웃 (tape-out) 후 1218개월 이내에 자동차 및 산업용 OEM 설계 수주 (design wins)가 뒤따를 것입니다.
Taalas는 범용 AI 칩 (general-purpose AI chip) 게임에서 Nvidia를 이기려 하는 것이 아닙니다. 이 회사는 모델 안정성 (model stability)과 전력 제한적 배포 (power-constrained deployment)가 만나는 좁지만 방어 가능한 틈새 시장을 개척하고 있습니다. 그 틈새 시장은 1억 6,900만 달러의 투자 유치 규모가 시사하는 것보다 작을 수도 있습니다. 혹은, 차세대 5억 개의 AI 탑재 기기들이 추론 (inference)을 수행하는 바로 그 지점일 수도 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기