arXiv논문2026. 05. 04. 19:11

VitaLLM: 엣지 디바이스에서의 정밀도 혼합 대형 언어 모델 추론을 위한 다목적 소형 가속기

요약

VitaLLM은 엣지 디바이스에서 삼진(ternary) 가중치를 사용하는 대형 언어 모델(LLM) 추론을 효율적으로 수행하기 위해 설계된 다목적 소형 가속기입니다. 이 아키텍처는 곱셈 없는 TINT 코어와 BoothFlex 코어를 결합하여, 배열 복제 없이도 다양한 정밀도의 연산을 처리합니다. 또한, 예측 스텔스 어텐션 메커니즘과 시스템 레벨 최적화를 통해 KV 트래픽을 줄이고 전반적인 효율성을 극대화했습니다.

핵심 포인트

VitaLLM은 엣지 디바이스에 특화된 다목적 LLM 가속기로, 삼진(ternary) 가중치 연산을 지원합니다.
아키텍처는 TINT 코어와 BoothFlex 코어를 결합하여 곱셈 없는 연산과 다양한 정밀도의 매트릭스 계산을 효율적으로 처리합니다.
예측 스텔스 어텐션 메커니즘은 Top-K 선택기와 LO surrogate를 사용하여 KV 트래픽을 획기적으로 줄여 성능을 향상시킵니다.
16nm 공정 프로토타입에서 높은 토큰/초 및 낮은 전력 효율성을 입증하며, 엣지 LLM 구현의 실용적인 청사진을 제시합니다.

우리는 엣지 디바이스에서 삼진 (ternary) 가중치 대형 언어 모델을 효율적으로 실행할 수 있도록 하는 정밀도 혼합 가속기 VitaLLM 을 소개합니다. 이 설계는 두 개의 계산 코어를 결합합니다: 삼진-INT 투영을 위한 곱셈 없는 TINT 코어와, INT8×INT8 attention 과 삼진-INT 유지용화를 모두 위해 radix-4 Booth datapath 을 재사용하는 BoothFlex 코어입니다. 배열 복제를 하지 않고 두 코어가 함께 작동합니다.

예측 스텔스 attention 메커니즘은 비교 없는 top-K 선택기를 사용하여 leading-one (LO) surrogate 를 적용하고, cached 토큰 M 개에 대해 key/value (KV) fetches 를 약 1-K/M 비율로 잘라냅니다. 이는 정확한 attention 을 K 후보자로 제한합니다.

시스템 레벨 통합은 head-level pipelining 과 absmax 기반 양자화 장벽을 사용하여 코어 간 인터페이스를 표준화하고 비선형 감소를 선형 타일과 겹칩니다.

16 nm 실리콘 프로토타입은 1 GHz/0.8 V 에서 작동하며, decode 시 72.46 토큰/s, prefill (64 토큰) 시 0.88 초를 달성합니다. 이는 0.214 mm^2 와 120 KB 온칩 메모리 내에서 수행되며, ablations 에서 KV traffic 을 줄이고 활용도를 개선합니다.

이 결과는 엣지 클래스 플랫폼에서 BitNet b1.58 (3B) 추론을 실용적으로 구현하고, 미래의 정밀도 혼합 LLM 가속기를 위한 컴팩트한 청사진을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

VitaLLM: 엣지 디바이스에서의 정밀도 혼합 대형 언어 모델 추론을 위한 다목적 소형 가속기

요약

핵심 포인트

댓글