
AI 및 추론 (Inference) 연구의 진전: 독자적인 AI 가속기 아키텍처 설계
요약
FPGA를 활용하여 LLM 추론에 최적화된 독자적인 AI 가속기 아키텍처를 설계하는 연구 프로젝트를 소개합니다. AMD/Xilinx Alveo U50을 기반으로 특수 양자화 포맷인 DMC3를 적용하여 하드웨어와 알고리즘을 공동 설계합니다.
핵심 포인트
- Alveo U50 FPGA를 활용한 LLM 추론 가속기 개발
- 3.0625 bit/weight 밀도의 DMC3 양자화 포맷 탐구
- 하드웨어와 알고리즘의 공동 설계(Co-design) 지향
- 오픈 소스 기반의 재현 가능한 연구 프로토타입 구축
여러분 안녕하세요, 저는 인공지능 (AI) 및 추론 (Inference)에 관한 연구를 한 단계 더 발전시키기로 결정했습니다. 저의 장기적인 목표는 기존의 인공지능 모델을 기성 하드웨어에서 실행하는 수준을 넘어, 저만의 양자화 (Quantization) / 가속기, 그리고 어떤 의미에서는 저만의 칩 (Chip)을 설계하기 시작하는 것입니다. 따라서 모델의 수치적 표현부터 메모리 조직 (Memory Organization), 그리고 연산 데이터 경로 (Computation Data Path)에 이르기까지 모든 계층을 함께 다루며 저만의 인공지능 가속기 아키텍처를 구축해 나갈 것입니다. 🎉
ASIC을 제작하는 것은 높은 비용과 긴 시간이 소요되기 때문에, 저는 재구성 가능한 FPGA 기술로 방향을 틀었습니다. AMD/Xilinx Alveo U50 카드를 저비트 대규모 언어 모델 (LLM) 추론을 위해 특화된 가속기를 개발하는 데 있어 기본 플랫폼으로 사용할 예정입니다.
제가 개발 중인 U50-DMC3 프로젝트의 목적은 TinyLlama-1.1B 급의 대규모 언어 모델의 batch-1 자기회귀 디코딩 (Autoregressive Decode) 작업을 Alveo U50 위에서 높은 효율로 수행하는, 측정 가능하고 발표 가능한 연구 프로토타입을 만드는 것입니다. 제 연구의 중심은 가중치(Weights)를 페이로드 수준에서 3.0625 bit/weight 밀도로 표현하는 DMC3라는 특수한 양자화 (Quantization) 포맷을 탐구하는 것입니다. 이 포맷은 단순히 모델의 크기를 줄이는 것만을 위한 것이 아닙니다. 또한 U50의 HBM 아키텍처, 256-bit AXI 데이터 흐름, 그리고 FPGA 상의 shift/add 기반 연산 가능성을 고려하여 하드웨어와 알고리즘을 공동 설계(Co-design)하기 위해 개발하고 있습니다.
포맷 사양, 양자화 (Quantization) 도구, 패커 (Packer), 골든 모델 (Golden Models), 하드웨어 커널 (Hardware Kernels), 런타임 소프트웨어 (Runtime Software), 벤치마크 (Benchmark) 인프라 및 실험 결과와 함께, 오픈 소스로 공개 가능하고 과학적으로 재현 가능한 인공지능 가속기 프로토타입을 개발하고자 노력할 것입니다. 자세한 내용은 향후 결과물과 함께 공유하겠습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @alicankiraz0 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기