RaBitQCache: 긴 문맥 LLM 추론을 위한 KVCache용 회전 이진 양자화 (Rotated Binary Quantization)

긴 문맥(Long-context) 거대 언어 모델 (Large Language Model, LLM) 추론은 거대한 Key-Value (KV) 캐시로 인해 심각한 병목 현상을 겪고 있습니다. 그러나 기존의 희소 어텐션 (sparse attention) 방법들은 종종 정적인 고정 예산 (Top-k) 검색 방식의 문제를 겪거나, 계산 비용이 많이 들고 편향된 프록시 점수 (proxy scores)에 의존합니다. 이러한 한계를 해결하기 위해, 우리는 무작위 회전 이진 양자화 (randomized rotated binary quantization)와 고처리량 이진-INT4 산술 (high-throughput binary-INT4 arithmetic)을 사용하여 어텐션 가중치를 효율적으로 추정하는 새로운 희소 어텐션 프레임워크인 RaBitQCache를 제안합니다. 우리의 프록시 점수는 입증된 오차 범위(error bound)를 가진 편향되지 않은 추정치 (unbiased estimator) 역할을 하여, 실제 어텐션 희소성 (attention sparsity)에 따라 토큰 예산을 동적으로 조정하는 적응형 Top-p 검색을 가능하게 합니다. 나아가, 우리는 오버헤드를 숨기기 위해 비동기 파이프라이닝 (asynchronous pipelining) 및 지연 업데이트 (lazy updates)를 포함한 하드웨어 인식 시스템 (hardware-aware system)을 구현했습니다. 평가 결과, RaBitQCache는 최신 베이스라인 (state-of-the-art baselines)과 비교했을 때 생성 품질을 유지하면서도 추론을 크게 가속화하고 메모리 I/O를 줄이는 것으로 나타났습니다. 코드는 https://github.com/Sakuraaa0/RaBitQCache.git 에서 확인할 수 있습니다.

Insights

RaBitQCache: 긴 문맥 LLM 추론을 위한 KVCache용 회전 이진 양자화 (Rotated Binary Quantization)

요약

핵심 포인트

댓글

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법