AI 모델을 트랜지스터에 직접 각인: Taalas의 혁신적 추론 가속 기술
요약
스타트업 Taalas는 기존 컴퓨팅 아키텍처의 한계를 극복하기 위해 AI 모델의 가중치(weights)를 칩 트랜지스터 자체에 직접 '각인(etch)'하는 혁신적인 방식을 제시합니다. 이는 소프트웨어 의존성을 제거하고, 메모리와 연산 장치 간의 물리적 경계(memory wall)를 근본적으로 해소하여 AI 추론 속도와 밀도를 극대화합니다. Taalas는 마스크 ROM (mask ROM)과 SRAM을 결합한 아키텍처를 통해 80억 개 이상의 파라미터를 온칩에 구현하며, 기존 GPU/XPU 대비 압도적인 효율성을 목표로 합니다.
핵심 포인트
- Taalas는 AI 모델의 가중치를 트랜지스터 자체에 하드 코딩(hard coding)하여 소프트웨어 오버헤드를 제거하고 추론 성능을 극대화합니다.
- 핵심 아키텍처는 마스크 ROM (mask ROM)과 SRAM을 결합한 '리콜 패브릭(recall fabric)'으로, 모델 저장과 KV 캐시 연산을 동시에 처리할 수 있습니다.
- 이 설계 방식은 메모리와 컴퓨팅 간의 병목 현상(memory wall)을 해소하여 높은 밀도와 낮은 비용으로 고성능 AI 추론을 가능하게 합니다.
- Taalas는 현재 칩의 하드 와이어드 부분에만 80억 개 이상의 파라미터를 구현할 수 있는 밀도를 달성했습니다.
AI 컴퓨팅 분야에서 성능 향상을 위해 SRAM 블록 추가나 웨이퍼 규모 엔진 집적 등 다양한 시도가 있었으나, 스타트업 Taalas는 한 단계 더 나아가 AI 모델의 가중치(weights)를 칩 트랜지스터 자체에 직접 '각인(etch)'하는 혁신적인 접근 방식을 제시하며 업계의 주목을 받고 있습니다.
Taalas가 주장하는 핵심은, 컴퓨팅 엔진을 유연하게 조정할 수 있도록 소프트웨어 구조에 의존하는 방식에서 벗어나, 완성된 AI 추론 모델 자체를 하드웨어 레벨로 구현하는 것입니다. 이 접근법은 기존 아키텍처의 근본적인 문제점을 해결합니다.
1. 메모리 벽(Memory Wall) 극복:
기존 GPU나 XPU는 높은 연산 성능을 달성하기 위해 HBM (High Bandwidth Memory)과 같은 고대역폭 DRAM에 의존해 왔습니다. 이는 컴퓨팅 유닛과 메모리 사이에 발생하는 물리적 병목 현상, 즉 '메모리 벽(memory wall)' 문제를 야기합니다. Taalas의 아키텍처는 모델 가중치를 칩 내부에 직접 통합함으로써 이 경계를 근본적으로 제거합니다.
2. 하드 코딩 추론 (Hard Coded Inference):
Taalas는 마스크 ROM (mask ROM)과 SRAM을 결합한 독자적인 '리콜 패브릭(recall fabric)'을 사용합니다. 이 구조를 통해 모델의 가중치와 알고리즘을 칩에 하드 코딩할 수 있으며, 저장 공간 자체에서 KV 캐시(Key-Value cache) 연산까지 수행 가능하게 합니다. 이는 컴퓨팅과 스토리지를 결합하여 밀도(density)를 극대화하고 비용을 절감하는 핵심 동력입니다.
3. 기술적 우위 및 배경:
Taalas는 2년 반 전 설립되었으며, AMD, Apple, Google, Nvidia 등 주요 기업 출신의 엔지니어들로 구성되어 있습니다. 특히 공동 창업자들은 과거 Tenstorrent와 같은 선도적인 AI 가속기 개발 경험을 보유하고 있어 깊이 있는 하드웨어 설계 역량을 갖추고 있습니다.
현재 Taalas가 달성한 기술적 밀도는 칩의 하드 와이어드 부분에만 80억 개 이상의 파라미터를 구현할 수 있음을 보여줍니다. 이는 AI 추론 가속기 분야에서 매우 높은 수준의 성과로 평가받고 있습니다.
결론적으로, Taalas는 소프트웨어적 유연성이라는 장점을 포기하는 대신, 하드웨어에 모델을 직접 새겨 넣음으로써 전례 없는 속도와 효율성을 확보하여 차세대 AI 추론 시장을 선도하겠다는 목표를 가지고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 The Next Platform의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기