OSCAR: 긴 문맥 추론을 위한 진정한 2-bit KV 캐시 양자화 (KV cache quantization)
요약
Together AI 연구진이 개발한 OSCAR는 어텐션 인식 공분산 회전을 통해 2-bit 수준의 KV 캐시 양자화를 구현합니다. 이를 통해 메모리 사용량을 8배 절감하고 서빙 처리량을 최대 7배까지 향상시키며 긴 문맥 추론 성능을 최적화합니다.
핵심 포인트
- 2.28 유효 비트로 BF16에 근접한 정확도 유지
- KV 캐시 메모리 약 8배 절감 및 처리량 최대 7배 향상
- 어텐션 인식 공분산 회전 기술 적용
- 1M 문맥에서 프리필 속도 9.36배 및 디코딩 2배 향상
OSCAR: 긴 문맥 추론 (long-context reasoning)을 위한 진정한 2-bit KV 캐시 양자화 (KV cache quantization)
Together AI 연구진은 어텐션 인식 공분산 회전 (attention-aware covariance rotations)을 사용하여 요소당 단 2.28의 유효 비트 (effective bits)만으로 BF16에 근접한 정확도를 회복하면서, KV 캐시 (KV-cache) 메모리를 약 8배 절감하고 서빙 처리량 (serving throughput)을 최대 약 7배까지 높였습니다.
논문 페이지:
https://huggingface.co/papers/2605.17757
사전 계산된 회전 (Pre-computed rotations):
https://huggingface.co/Zhongzhu/OSCAR-RotationZoo
코드:
https://github.com/FutureMLS-Lab/OSCAR
풀 어텐션 (Full Attention)의 귀환
RTPurbo는 풀 어텐션 (full-attention) LLM이 이미 희소하다 (sparse)는 것을 밝혀냈습니다.
이 기술은 검색 헤드 (retrieval heads)를 분리하고 16차원 토큰 인덱서 (token indexer)를 추가합니다.
단 몇 백 단계의 학습만으로 1M 문맥 (context)에서 9.36배의 프리필 (prefill) 속도 향상과 2배 빠른 디코딩 (decoding)을 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기