arXiv논문2026. 05. 06. 12:53

QKVShare: 에지 디바이스 멀티 에이전트 LLM 을 위한 양자화된 KV-Cache 손절

요약

QKVShare는 엣지 디바이스 환경에서 멀티 에이전트 LLM을 위한 효율적인 KV-Cache 손절 프레임워크입니다. 이 프레임워크는 토큰 단위 혼합 정밀도 할당, 자체 포함 CacheCard 표현, 그리고 HuggingFace 호환 캐시 주입 경로를 결합하여 기존의 비용이 많이 드는 재-프리필 또는 전역 KV 전송 방식의 한계를 극복합니다. 실험 결과에 따르면, QKVShare는 특히 반복적인 손절 상황에서 적응형 양자화가 경쟁력을 유지하며, 깊은 홉과 높은 예산 설정에서 균일 양자화 대비 명확한 이점을 보여주며, 재-프리필 방식보다 낮은 지연 시간을 달성합니다.

핵심 포인트

QKVShare는 에지 디바이스 멀티 에이전트 LLM을 위한 효율적인 KV-Cache 손절 솔루션을 제공합니다.
토큰 단위 혼합 정밀도 할당과 자체 포함 CacheCard 표현을 결합하여 메모리 및 계산 비용을 절감했습니다.
QKVShare는 재-프리필 방식 대비 낮은 Time To First Token (TTFT) 지연 시간을 보여주어 에지 디바이스 배포에 유리합니다.
적응형 양자화 기법이 반복적인 손절 상황에서 경쟁력을 유지하며, 깊은 홉과 높은 예산 설정에서 균일 양자화 대비 우수한 성능을 입증했습니다.

에지 디바이스의 멀티 에이전트 LLM 시스템은 잠재적 컨텍스트를 효율적으로 손절해야 하지만, 현재의 실용적인 선택은 비용이 많이 드는 재-프리필 또는 정밀도 전역 KV 전송입니다. 우리는 토큰 단위의 혼합 정밀도 할당, 자체 포함 CacheCard 표현, 그리고 HuggingFace 호환 캐시 주입 경로를 결합한 양자화된 KV-Cache 손절 에이전트 간의 QKVShare 프레임워크를 연구합니다. 현재 결과는 원래 초안보다 좁지만 명확한 이야기를 지지합니다: Llama-3.1-8B-Instruct 과 150 GSM8K 문제에서, 반복적인 손절 하에 적응형 양자화는 여전히 경쟁력 있고, 더 깊은 홉과 더 높은 예산 설정에서 균일 양자화에 대해 가장 명확한 이점을 보입니다. 손절 지연 시간 측면에서, QKVShare 경로는 모든 테스트된 컨텍스트에서 완전 재-프리필 대비 TTFT 를 줄입니다. 1K 컨텍스트의 명목 130.7 ms vs. 150.2 ms 에서 8K 컨텍스트의 명목 397.1 ms vs. 1029.7 ms 로, 현재 QKVShare 지연 시간 경로는 주입 후 생성이 카드 생성보다 지배적입니다. 이러한 결과는 양자화된 KV 손절을 유망한 에지 디바이스 시스템 방향으로 위치시키지만, 더 강력한 컨트롤러 아벨레이션과 애플에 대한 애플레런 비교의 필요성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

QKVShare: 에지 디바이스 멀티 에이전트 LLM 을 위한 양자화된 KV-Cache 손절

요약

핵심 포인트

댓글