본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 05:22

KV 캐시를 구매할 수 있을까요?

요약

AI 에이전트들이 동일한 문서를 읽을 때마다 매번 prefill 단계를 재실행하여 컴퓨팅 자원을 낭비하는 문제를 지적합니다. 이 글은 문서의 Key-Value (KV) 캐시를 미리 계산하고, 다른 에이전트가 이를 로드하여 prefill 과정을 건너뛰는 방식을 제안하며, 이는 정확도 손실 없이 비용 효율적인 대안임을 설명합니다.

핵심 포인트

  • 문서 KV 캐시 사전 계산 및 재사용을 통해 컴퓨팅 자원 낭비를 막습니다.
  • 재사용은 prefill 대비 9~50배 저렴하여 비용 절감 효과가 매우 큽니다.
  • KV 데이터 전송(Shipping) 방식 대신 제공자 호스팅 방식을 사용해야 합니다.
  • 이 기술은 에이전트 네이티브 prefill CDN 형태로 구현될 수 있습니다.

현재 전 세계적으로 AI 에이전트들이 똑같은 황당한 행동을 반복하고 있습니다. 바로 하나의 문서를 읽기 위해, 각자 그 문서를 처음부터 다시 계산하는 것입니다. 모든 에이전트는 대규모 모델(large model)이 수행하는 가장 컴퓨팅 집약적인 단계인 prefill을 동일한 텍스트에 대해 재실행하여, 이전 에이전트가 방금 구축한 것과 동일한 key-value (KV) 캐시를 다시 구축합니다. 같은 답변을 백만 번 계산하는 것입니다. 우리는 거의 노골적으로 간단한 제안을 합니다: 한 번만 계산하도록 하는 것입니다. 출판사가 문서의 KV 캐시를 미리 계산하게 하고, 다른 모든 에이전트가 이를 로드할 권리를 구매하여 prefill 단계를 건너뛰게 하는 것입니다. 이는 작동하며, 토큰 단위로 정확합니다. 사전 계산된 KV를 로드하고 계속하는 것은 처음부터 prefilling을 수행한 것과 일치합니다 (24/24 그리디 토큰 및 로짓(logits) 레벨에서), 정확도 손실 없이 말입니다. Qwen3-4B의 경우, 재사용은 prefill 대비 컴퓨팅 비용이 9~50배 저렴하며, 길이가 길어질수록 그 격차는 더 커집니다 (prefill의 어텐션은 $L^2$에 비례하므로), 따라서 단 한 번의 재사용만으로도 이미 비용을 회수합니다. 그다음 중요한 부분은 KV가 어디에 존재하는지입니다. 전송(Shipping) 방식은 실패합니다. 왜냐하면 KV는 거의 압축할 수 없는 형태이기 때문에, 로드당 발생하는 외부 송신(egress) 비용이 절약되는 prefill 비용보다 더 많이 들기 때문입니다. 제공자 측에서 호스팅하는 방식은 프로덕션 프롬프트 캐싱(prompt-caching)과 정확히 작동하여 외부 송신을 완전히 제거합니다. 이 서비스의 가치는 우리가 측정한 컴퓨팅 절감액으로 결정됩니다: 3774 토큰 길이의 인기 문서를 8천만 개 에이전트에게 제공하는 비용은 재-prefill 시 약 $1.5M이지만, 재사용 컴퓨팅 비용은 단지 약 $0.03M에 불과합니다 (49.7배 적음). 0.1x 캐시 읽기 요금 API는 이 측정된 범위 내에서 사용자에게 10배 할인을 부과하지만, 이 10배는 우리가 측정한 ~50배의 컴퓨팅 절감액이 충족하는 하한선일 뿐이며, 실제 물리적 ~50배와의 차이는 제공자의 마진입니다: 인기 문서당 수백만 달러에 달합니다. 우리는 그 결과로 나오는 에이전트 네이티브 prefill CDN을 제시하고, 손실 없는 KV 압축과 교차 당사자 결제 계층은 열린 문제로 남겨둡니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0