UltraQuant: 컨텍스트 집약적 에이전트를 위한 4-bit KV 캐싱 (KV Caching)
요약
컨텍스트 집약적 에이전트의 KV 캐시 압박을 해결하기 위한 4-bit KV 캐싱 기술인 UltraQuant를 제안합니다. Walsh-Hadamard 회전과 코드북 양자화를 활용하여 품질을 유지하면서도 AMD GPU 환경에서 서빙 효율을 극대화합니다.
핵심 포인트
- 4-bit KV 캐싱을 통한 컨텍스트 집약적 에이전트 최적화
- 비대칭 K/V 처리 및 Walsh-Hadamard 회전 기술 적용
- AMD GPU 환경에서 최적화된 디코드-어텐션 커널 제공
- FP8 대비 출력 처리량 1.63배 향상 및 첫 토큰 생성 시간 단축
컨텍스트 집약적 (Context-heavy) 에이전트는 키-값 (KV) 캐시에 이례적인 압박을 가합니다. 긴 접두사 (prefixes)가 많은 짧은 턴 (turns)에 걸쳐 재사용되는 한편, 동시성 (concurrency)은 서빙 시스템이 GPU를 계속 활용할 수 있는지 여부를 결정합니다. 본 연구에서는 TurboQuant 스타일의 회전 (rotation) 및 코드북 양자화 (codebook quantization)를 품질 앵커 (quality anchor)로 사용하고, vLLM FP8 KV 캐싱을 배포 앵커 (deployment anchor)로 사용하여 이러한 환경을 위한 4-bit KV 캐시 압축을 연구합니다. 우리는 세 가지 기여를 보고합니다. 첫째, 작업 품질, 캐시 상주 (cache residency), 서빙 처리량 (serving throughput)을 공동으로 측정해야 하는 다회차 에이전트 워크로드 (multi-round agent workloads)를 중심으로 4-bit KV 캐싱을 프레임화합니다. 둘째, 비대칭 K/V 처리 (asymmetric K/V treatment), Walsh-Hadamard 회전 (rotation), QJL 제거, 블록 스케일 (block-scale) 변형을 포함하여 4-bit 경로를 견고하게 만드는 데 필요한 실질적인 설계 선택 사항을 설명합니다. 셋째, 최적화된 디코드-어텐션 커널 (decode-attention kernels)과 UltraQuant를 포함하여 AMD GPU에서의 서빙 최적화를 제시합니다. UltraQuant는 FP8 쿼리 (queries), FP4 KV 텐서 (tensors), UE8M0 그룹 스케일 (group scales), 그리고 CDNA4의 네이티브 스케일드-MFMA (scaled-MFMA) 지원을 사용하는 FP4 근사 경로 (approximation path)입니다. 긴 컨텍스트의 다회차 에이전트 워크로드에서 UltraQuant는 캐시 압박이 심한 후반 라운드에서 P50 첫 토큰 생성 시간 (time-to-first-token)을 3.47배 단축하고 (전체 라운드 평균 2.3배), FP8 KV 베이스라인 대비 출력 처리량 (output throughput)을 1.63배 향상시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기