본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 24. 01:05

HieraSparse: 계층적 희소 KV 어텐션으로 LLM 효율 극대화

요약

긴 컨텍스트를 처리하는 대규모 언어 모델(LLMs)은 셀프 어텐션과 Key-Value Cache (KV Cache) 때문에 막대한 계산 비용과 메모리 오버헤드를 가집니다. 본 논문에서 제안하는 HieraSparse는 계층적 KV 캐시 압축 프레임워크로, GPU 희소 텐서 코어를 활용하여 반구조화된(semi-structured) KV 캐시 어텐션을 가속합니다. 이 방법은 유연한 품질-희소성 트레이드오프를 제공하며, 기존 최신 기술 대비 동일 희소성 수준에서 $\mathbf{1.2\times}$의 KV 압축률과 $4.57\times$의

핵심 포인트

  • HieraSparse는 계층적 구조를 이용해 LLM의 KV Cache를 효율적으로 압축합니다.
  • GPU 희소 텐서 코어를 활용하여 어텐션 계산 속도를 크게 향상시킵니다.
  • 기존 방식 대비 높은 KV 압축률과 어텐션 가속 성능을 달성했습니다.
  • 프리필(prefill) 및 디코드(decode) 단계 모두에서 품질 저하 없이 상당한 속도 향상을 보여줍니다.

긴 컨텍스트를 처리하는 대규모 언어 모델(LLMs)은 셀프 어텐션과 Key-Value Cache (KV Cache) 관리로 인해 막대한 계산 비용과 메모리 오버헤드를 야기합니다. 본 논문에서는 이러한 문제를 해결하기 위해 HieraSparse라는 계층적 KV 캐시 압축 프레임워크를 제안했습니다.

HieraSparse는 GPU 희소 텐서 코어(sparse tensor cores)를 활용하여 반구조화된(semi-structured) KV 캐시 어텐션을 가속합니다. 이 계층적 설계 덕분에 사용자는 품질과 희소성 사이의 균형을 유연하게 조절할 수 있으며, 희소성을 효율성으로 성공적으로 전환합니다.

실험 결과에 따르면, HieraSparse는 비구조화된(unstructured) 희소성을 사용하는 기존 최신 기술 대비 동일한 희소성 수준에서 $\mathbf{1.2\times}$의 KV 압축률과 $4.57\times$의 어텐션 속도 향상을 달성했습니다.

나아가, 이 방법은 KV 캐시 가지치기(pruning)를 프리필 단계까지 확장하여 최고 희소성에서 최대 $\mathbf{1.85\times}$의 어텐션 속도 향상을 입증했습니다. 간단한 크기 기반 가지치기(magnitude-based pruning)로 평가했을 때, 품질 저하 없이 각각 $1.37\times$의 프리필 및 $1.77\times$의 디코드 속도 향상이 가능함을 확인했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0