X요약2026. 04. 27. 17:44

TurboQuant+ — 로컬 LLM 을 위한 KV 캐시 압축을 위한 구글의 TurboQuant (ICLR 2026)

요약

TurboQuant+는 로컬 환경에서 대형 언어 모델(LLM)의 추론 속도를 향상시키기 위해 KV 캐시를 압축하는 기술입니다. 이 기술은 M5 Max와 같은 장치에서 Qwen3.5-35B 모델을 4K 컨텍스트 길이로 실행할 때 초당 144 토큰이라는 높은 성능을 달성했습니다. CUDA, ROCm, CPU, Metal 등 다양한 플랫폼을 지원하며, 애플 실리콘 사용자를 위해 Swift MLX 포크 버전도 제공하여 범용성을 높였습니다.

핵심 포인트

로컬 LLM 추론 속도 향상을 위한 KV 캐시 압축 기술(TurboQuant+)을 소개합니다.
M5 Max 환경에서 4K 컨텍스트 길이의 대형 모델 구동 시 초당 144 토큰이라는 높은 성능을 입증했습니다.
CUDA, ROCm, CPU, Metal 등 광범위한 하드웨어 플랫폼을 지원하여 범용성이 뛰어납니다.
애플 실리콘 사용자들을 위해 Swift MLX 포크 버전을 제공합니다.

TurboQuant+ — 로컬 대형 언어 모델 (LLM) 을 위한 KV 캐시 (Key-Value cache) 압축을 위한 구글의 TurboQuant (ICLR 2026). M5 Max 에서 Qwen3.5-35B 를 4K 컨텍스트 길이로 실행할 때 초당 144 토큰 (tok/s) 성능 달성. 크로스 플랫폼 지원: CUDA, ROCm, CPU, Metal. 또한 애플 실리콘을 위한 Swift MLX 포크 버전도 제공됨.

6.1K Python #GitHub #AI #ML

AI 자동 생성 콘텐츠

원문 바로가기

TurboQuant+ — 로컬 LLM 을 위한 KV 캐시 압축을 위한 구글의 TurboQuant (ICLR 2026)

요약

핵심 포인트

댓글