RaBitQCache: 긴 문맥 LLM 추론을 위한 KVCache용 회전 이진 양자화 (Rotated Binary Quantization)
요약
RaBitQCache는 긴 문맥 LLM 추론 시 발생하는 KV 캐시 병목 현상을 해결하기 위한 새로운 희소 어텐션 프레임워크입니다. 무작위 회전 이진 양자화를 통해 어텐션 가중치를 효율적으로 추정하며, 적응형 Top-p 검색과 하드웨어 인식 시스템을 통해 추론 속도를 높이고 메모리 I/O를 절감합니다.
핵심 포인트
- 무작위 회전 이진 양자화를 통한 효율적인 어텐션 가중치 추정
- 실제 희소성에 따라 토큰 예산을 조정하는 적응형 Top-p 검색 도입
- 비동기 파이프라이닝 및 지연 업데이트를 통한 하드웨어 최적화
- 생성 품질 유지와 동시에 추론 가속화 및 메모리 I/O 감소 달성
긴 문맥(Long-context) 거대 언어 모델 (Large Language Model, LLM) 추론은 거대한 Key-Value (KV) 캐시로 인해 심각한 병목 현상을 겪고 있습니다. 그러나 기존의 희소 어텐션 (sparse attention) 방법들은 종종 정적인 고정 예산 (Top-k) 검색 방식의 문제를 겪거나, 계산 비용이 많이 들고 편향된 프록시 점수 (proxy scores)에 의존합니다. 이러한 한계를 해결하기 위해, 우리는 무작위 회전 이진 양자화 (randomized rotated binary quantization)와 고처리량 이진-INT4 산술 (high-throughput binary-INT4 arithmetic)을 사용하여 어텐션 가중치를 효율적으로 추정하는 새로운 희소 어텐션 프레임워크인 RaBitQCache를 제안합니다. 우리의 프록시 점수는 입증된 오차 범위(error bound)를 가진 편향되지 않은 추정치 (unbiased estimator) 역할을 하여, 실제 어텐션 희소성 (attention sparsity)에 따라 토큰 예산을 동적으로 조정하는 적응형 Top-p 검색을 가능하게 합니다. 나아가, 우리는 오버헤드를 숨기기 위해 비동기 파이프라이닝 (asynchronous pipelining) 및 지연 업데이트 (lazy updates)를 포함한 하드웨어 인식 시스템 (hardware-aware system)을 구현했습니다. 평가 결과, RaBitQCache는 최신 베이스라인 (state-of-the-art baselines)과 비교했을 때 생성 품질을 유지하면서도 추론을 크게 가속화하고 메모리 I/O를 줄이는 것으로 나타났습니다. 코드는 https://github.com/Sakuraaa0/RaBitQCache.git 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기