OSCAR: 긴 문맥 추론을 위한 진정한 2-bit KV 캐시 양자화 (KV cache quantization)

OSCAR: 긴 문맥 추론 (long-context reasoning)을 위한 진정한 2-bit KV 캐시 양자화 (KV cache quantization)

Together AI 연구진은 어텐션 인식 공분산 회전 (attention-aware covariance rotations)을 사용하여 요소당 단 2.28의 유효 비트 (effective bits)만으로 BF16에 근접한 정확도를 회복하면서, KV 캐시 (KV-cache) 메모리를 약 8배 절감하고 서빙 처리량 (serving throughput)을 최대 약 7배까지 높였습니다.

논문 페이지:
https://huggingface.co/papers/2605.17757

사전 계산된 회전 (Pre-computed rotations):
https://huggingface.co/Zhongzhu/OSCAR-RotationZoo

코드:
https://github.com/FutureMLS-Lab/OSCAR

풀 어텐션 (Full Attention)의 귀환

RTPurbo는 풀 어텐션 (full-attention) LLM이 이미 희소하다 (sparse)는 것을 밝혀냈습니다.

이 기술은 검색 헤드 (retrieval heads)를 분리하고 16차원 토큰 인덱서 (token indexer)를 추가합니다.

단 몇 백 단계의 학습만으로 1M 문맥 (context)에서 9.36배의 프리필 (prefill) 속도 향상과 2배 빠른 디코딩 (decoding)을 달성합니다.

Insights

OSCAR: 긴 문맥 추론을 위한 진정한 2-bit KV 캐시 양자화 (KV cache quantization)

요약

핵심 포인트

댓글

AI 헤지 펀드 — Claude의 분석

하이닉스를 긍정적으로 보는 이유 중 하나는 HBF 때문입니다.

Internet Identity에 MCP 서버가 도입됩니다.

AI 경쟁의 본질은 가장 똑똑한 모델을 만드는 것이 아니다

하이닉스를 긍정적으로 보는 이유 중 하나는 HBF 때문입니다.

Internet Identity에 MCP 서버가 도입됩니다.

AI 경쟁의 본질은 가장 똑똑한 모델을 만드는 것이 아니다