arXiv논문2026. 04. 24. 01:05

HieraSparse: 계층적 희소 KV 어텐션으로 LLM 효율 극대화

요약

긴 컨텍스트를 처리하는 대규모 언어 모델(LLMs)은 셀프 어텐션과 Key-Value Cache (KV Cache) 때문에 막대한 계산 비용과 메모리 오버헤드를 가집니다. 본 논문에서 제안하는 HieraSparse는 계층적 KV 캐시 압축 프레임워크로, GPU 희소 텐서 코어를 활용하여 반구조화된(semi-structured) KV 캐시 어텐션을 가속합니다. 이 방법은 유연한 품질-희소성 트레이드오프를 제공하며, 기존 최신 기술 대비 동일 희소성 수준에서 $\mathbf{1.2\times}$의 KV 압축률과 $4.57\times$의

핵심 포인트

HieraSparse는 계층적 구조를 이용해 LLM의 KV Cache를 효율적으로 압축합니다.
GPU 희소 텐서 코어를 활용하여 어텐션 계산 속도를 크게 향상시킵니다.
기존 방식 대비 높은 KV 압축률과 어텐션 가속 성능을 달성했습니다.
프리필(prefill) 및 디코드(decode) 단계 모두에서 품질 저하 없이 상당한 속도 향상을 보여줍니다.

긴 컨텍스트를 처리하는 대규모 언어 모델(LLMs)은 셀프 어텐션과 Key-Value Cache (KV Cache) 관리로 인해 막대한 계산 비용과 메모리 오버헤드를 야기합니다. 본 논문에서는 이러한 문제를 해결하기 위해 HieraSparse라는 계층적 KV 캐시 압축 프레임워크를 제안했습니다.

HieraSparse는 GPU 희소 텐서 코어(sparse tensor cores)를 활용하여 반구조화된(semi-structured) KV 캐시 어텐션을 가속합니다. 이 계층적 설계 덕분에 사용자는 품질과 희소성 사이의 균형을 유연하게 조절할 수 있으며, 희소성을 효율성으로 성공적으로 전환합니다.

실험 결과에 따르면, HieraSparse는 비구조화된(unstructured) 희소성을 사용하는 기존 최신 기술 대비 동일한 희소성 수준에서 $\mathbf{1.2\times}$의 KV 압축률과 $4.57\times$의 어텐션 속도 향상을 달성했습니다.

나아가, 이 방법은 KV 캐시 가지치기(pruning)를 프리필 단계까지 확장하여 최고 희소성에서 최대 $\mathbf{1.85\times}$의 어텐션 속도 향상을 입증했습니다. 간단한 크기 기반 가지치기(magnitude-based pruning)로 평가했을 때, 품질 저하 없이 각각 $1.37\times$의 프리필 및 $1.77\times$의 디코드 속도 향상이 가능함을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

HieraSparse: 계층적 희소 KV 어텐션으로 LLM 효율 극대화

요약

핵심 포인트

댓글