arXiv논문2026. 05. 08. 13:04

Litespark Inference on Consumer CPUs: Custom SIMD Kernels for Ternary Neural

요약

대규모 언어 모델(LLMs)의 추론 비용 문제를 해결하기 위해 Ternary 모델을 활용하는 Litespark-Inference라는 새로운 방법을 제안합니다. 이 방법은 가중치가 {-1, 0, +1}로 제한된 Ternary 모델의 특성을 이용해 부동 소수점 곱셈 대신 정수 점곱 명령어를 사용하는 커스텀 SIMD 커널을 구현했습니다. 그 결과, Apple Silicon 및 Intel/AMD CPU에서 기존 표준 추론 방식 대비 현저히 빠른 속도와 높은 효율성(예: 첫 토큰 시간 9.2배 단축, 처리량 52배 증가)을 달성하여 개인 기기에서의 AI 작업 부하 활용도를 높였습니다.

핵심 포인트

LLM 추론의 높은 계산 비용 문제를 해결하기 위해 Ternary 모델(가중치: {-1, 0, +1})을 사용합니다.
Litespark-Inference는 커스텀 SIMD 커널을 개발하여 부동 소수점 연산 대신 정수 점곱 명령어를 활용함으로써 효율성을 극대화했습니다.
이 솔루션은 pip-installable하며 Hugging-Face와 직접 통합되어 사용 편의성이 높습니다.
Apple Silicon 및 Intel/AMD CPU에서 기존 방식 대비 첫 토큰 시간 9.2배 단축, 처리량 52배 증가 등 뛰어난 성능 향상을 입증했습니다.

대규모 언어 모델 (LLMs) 은 인공지능을 변화시켰지만, 대부분의 사용자에게는 여전히 계산 요구 사항이 prohibitively(고정적/금지적) 입니다. 표준 추론은 비싼 데이터센터 GPU 나 클라우드 API 접근을 필요로 하며, AI 작업 부하를 위해 10 억 개 이상의 개인 컴퓨터가 불완전하게 활용되고 있습니다. Ternary 모델은 해결책의 길을 제시합니다: 그들의 가중치는 {-1, 0, +1} 로 제한되며, 이론적으로 부동 소수점 곱셈의 필요성을 제거합니다. 그러나 기존 프레임워크는 이 구조를 활용하지 않고 Ternary 모델을 밀집된 부동 소수점 네트워크로 취급합니다. 우리는 현대 CPU 의 정수 점곱 명령어를 목표로 하는 커스텀 SIMD 커널을 통해 이 격차를 해결합니다. 우리의 구현인 Litespark-Inference 는 pip-installable 하며 Hugging-Face 와 직접 통합되어, Apple Silicon 에 대한 표준 PyTorch 추론에 비해 9.2 배 빠른 시간까지 첫 토큰 (time-to-first-token), 52 배 높은 처리량, 및 14 배 메모리 감소를 달성하며, Intel 과 AMD 프로세서에서도 유사한 속도 향상을 보입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Litespark Inference on Consumer CPUs: Custom SIMD Kernels for Ternary Neural

요약

핵심 포인트

댓글