Reddit요약2026. 05. 26. 16:51

OSCAR RotationZoo: 2비트 KV 캐시 양자화(Quantization)를 위한 오프라인 스펙트럴 공분산 인식 회전 행렬

요약

OSCAR는 2비트 KV 캐시 양자화를 위해 오프라인 스펙트럴 공분산 인식을 활용한 회전 행렬을 제안합니다. 이를 통해 모델의 성능 저하를 최소화하면서 KV 캐시 메모리 사용량을 약 7배 압축할 수 있습니다.

핵심 포인트

2비트 INT2 양자화를 위한 사전 계산된 회전 행렬 제공
KV 캐시 메모리 사용량을 약 7배 압축 가능
GPQA 벤치마크에서 성능 하락을 단일 자릿수 pp로 방어
고유값 분해 없이 즉시 사용 가능한 .pt 파일 형태 제공

[https://huggingface.co/Zhongzhu/OSCAR-RotationZoo]

OSCAR RotationZoo

OSCAR INT2 KV 캐시 양자화를 위한 사전 계산된 K/V 회전 행렬.

이 저장소는 논문 OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization에 대한 아티팩트를 포함합니다. Zhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu

📄 논문: arXiv:2605.17757
🌐 웹사이트: https://oscar-quantize.github.io/
💻 코드: https://github.com/FutureMLS-Lab/OSCAR

OSCAR는 작은 보정(calibration) 세트에서 Q/K/V 활성화를 포착하고, 어텐션 인식 K/V 공분산을 오프라인으로 추정하며, INT2 양자화가 실제로 소비하는 방향에 맞춰 레이어별 직교 회전을 도출합니다. 그 결과는 밀집 추론 모델(dense reasoning models)의 GPQA에서 단일 자릿수 pp 정확도 하락만으로 KV 캐시 메모리 사용량을 약 7배 압축할 수 있습니다.

이 저장소는 Q/K/V 덤프 및 고유값 분해(eigendecomposition)를 직접 실행할 필요가 없도록 회전을 드롭인(.pt) 파일 형태로 패키징합니다.

사용 가능한 회전 행렬 (Available rotations)

모델	보정 데이터셋 (Calibration)	GPQA (BF16)	GPQA (OSCAR INT2)
`Qwen/Qwen3-4B-Thinking-2507`	`seq20000_prompt83_group128`	67.27	67.17
...

시간이 지남에 따라 이런 것들이 나오고 있습니다. 그리고 저는 이 스레드를 지속적으로 이러한 내용들로 업데이트하고 있습니다. 바라건대, 올해 말까지 8GB VRAM으로 중형 크기(30-40B) MOE 모델(또한 10-20B 밀집 모델)을 더 좋고 빠르게 구동할 수 있기를 바랍니다.

llama.cpp에 이것이 있으면 정말 좋을 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

OSCAR RotationZoo: 2비트 KV 캐시 양자화(Quantization)를 위한 오프라인 스펙트럴 공분산 인식 회전 행렬

요약

핵심 포인트

OSCAR RotationZoo

사용 가능한 회전 행렬 (Available rotations)

댓글