arXiv논문2026. 05. 01. 12:28

VitaLLM: 의존성 인식 스케줄링을 갖춘 다목적 초소형 3가치 LLM 가속기

요약

VitaLLM은 자원 제약이 있는 엣지 디바이스에서 대규모 언어 모델(LLMs)을 효율적으로 구동하기 위한 전용 하드웨어-소프트웨어 공동 설계 가속기입니다. 이 아키텍처는 3가치 양자화 LLM의 계산 및 대역폭 병목 현상을 해결하기 위해 TINT-Core와 BoothFlex-Core를 결합한 이종 코어 전략을 사용합니다. 특히, 의존성 인식 스케줄링(Dependency-Aware Scheduling)과 Key-Value 캐시 최적화 메커니즘을 도입하여 전력 효율성과 처리량을 극대화했습니다.

핵심 포인트

VitaLLM은 엣지 디바이스용 초소형 LLM 가속기로, 메모리 대역폭 및 전력 소모 문제를 해결합니다.
TINT-Core와 BoothFlex-Core를 결합한 이종 코어 전략을 통해 계산(Prefill)과 대역폭(Decode) 병목 현상을 모두 효율적으로 처리합니다.
의존성 인식 스케줄링(Dependency-Aware Scheduling) 프레임워크는 비선형 연산 지연을 숨기고 전반적인 성능을 향상시킵니다.
Key-Value 캐시 최적화 및 초소형 면적 구현으로 높은 에너지 효율성(17.4 TOPS/mm$^2$/W)을 달성했습니다.

자원 제약이 있는 엣지 디바이스에서 대규모 언어 모델 (LLMs) 을 배포할 때는 메모리 대역폭과 전력 소모에서 치명적인 병목 현상을 겪습니다. 3가치 양자화 (예: BitNet b1.58) 는 모델 크기를 크게 줄이지만, 일반 목적 하드웨어에 직접 배포하는 것은 작업량 불균형, 대역폭 제한 디코딩, 엄격한 데이터 의존성으로 인해 방해받습니다. 이러한 과제를 해결하기 위해 우리는 효율적인 3가치 LLM 추론을 위한 전용 하드웨어-소프트웨어 공동 설계 가속기인 extbf{VitaLLM} 을 제안합니다. 우리는 대규모 3가치 행렬 곱셈을 위한 전문화된 TINT-Core 와 혼합 정밀도 어텐션을 위한 통합 BoothFlex-Core 를 시너지 있게 결합하는 이종 extbf{Dual-Core Compute Strategy} 을 도입하여, 계산 제한인 prefill 단계와 대역폭 제한인 decode 단계를 모두 고 효율적으로 활용합니다. 또한 불필요한 Key-Value (KV) 캐시 가져오기를 줄이기 위한 extbf{Leading One Prediction (LOP)} 메커니즘과 비선형 연산의 지연을 숨기기 위한 extbf{Dependency-Aware Scheduling} 프레임워크를 개발했습니다. TSMC 16nm 공정으로 구현된 VitaLLM 은 초소형 면적 0.223 mm$^2$ 내에서 디코딩 처리량을 70.70 tokens/s 로 달성하고, 전력 소모는 65.97 mW 입니다. 이 설계는 17.4 TOPS/mm$^2$/W 의 우수한 성능 지표 (FOM) 를 제공하여 최신 가속기들을 압도적으로 능가합니다. 마지막으로 정밀도 민첩성 추론을 위한 구조의 적응성을 입증하기 위해 확장된 비트 직렬 설계 (BoothFlex-BS) 를 탐구했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

VitaLLM: 의존성 인식 스케줄링을 갖춘 다목적 초소형 3가치 LLM 가속기

요약

핵심 포인트

댓글