본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 29. 21:43

Salca: 효율적인 긴 컨텍스트 어텐션 디코딩을 위한 희소성 인식 하드웨어 가속기

요약

본 기술 기사는 대형 언어 모델(LLM)이 긴 컨텍스트를 처리할 때 발생하는 계산 및 메모리 병목 현상을 해결하기 위한 하드웨어 가속기를 제안합니다. 소프트웨어적으로는 초저정밀도 양자화와 특징 희소성을 결합한 '이중 압축 동적 희소 어텐션'을 도입하고, 근사 Top-K 선택으로 복잡도를 최적화했습니다. 하드웨어 측면에서는 이러한 희소성 및 긴 컨텍스트의 상호작용에 맞춰 계산과 메모리 액세스를 깊이 있게 최적화한 ASIC 가속기를 설계하여, 기존 대비 월등히 높은 속도와 에너지 효율을 달성했습니다.

핵심 포인트

  • LLM의 긴 컨텍스트 처리는 KV 캐시 접근 증가로 인해 심각한 하드웨어 병목 현상을 야기한다.
  • 소프트웨어적으로는 '이중 압축 동적 희소 어텐션'을 통해 예측 오버헤드를 최소화하고 효율성을 높였다.
  • 하드웨어 가속기는 완전히 파이프라인화된 병렬 구조를 채택하여 긴 시퀀스에서도 $O(n)$의 선형 효율성을 달성한다.
  • 제안된 ASIC은 A100 대비 3.82배의 속도 향상과 74.19배의 에너지 효율을 보여준다.
  • 이는 긴 컨텍스트 추론에 특화된 최초의 고효율 ASIC 가속기 설계이다.

긴 컨텍스트는 대형 언어 모델의 능력을 향상시키지만 심각한 하드웨어 과제를 제기합니다: 계산 및 메모리 부피가 시퀀스 길이에 따라 선형적으로 증가하기 때문입니다. 특히, 디코딩 단계에서는 방대한 KV 캐시를 지속적으로 액세스하여 대역폭과 컴퓨팅 압력을 급격히 증가시킵니다. 기존 가속기는 주로 짧은 컨텍스트를 대상으로 설계 및 평가되었습니다. 긴 컨텍스트를 처리할 때 상당한 성능 저하를 겪습니다. 이 격차를 해소하기 위해 우리는 주요 병목 현상을 식별하고 하드웨어-소프트웨어 공동 설계를 통해 긴 컨텍스트 어텐션 디코딩을 위한 하드웨어 가속기를 제시합니다. 소프트웨어 측면에서는 이중 압축 동적 희소 어텐션 (dual-compression dynamic sparse attention) 을 제안합니다. 이는 초저정밀도 양자화 (ultra-low-precision quantization) 와 특징 희소성 (feature sparsity) 을 결합하여 예측 오버헤드를 최소화합니다. 하드웨어 친화적인 근사 Top-K 선택 (approximate Top-K selection) 은 필터 복잡도를 $O(n \log k)$ 에서 $O(n)$ 으로 추가로 줄입니다. 하드웨어 측면에서는 희소 어텐션과 긴 컨텍스트 간의 복잡한 상호작용에서 발생하는 병목 현상을 해결하기 위해 계산 및 메모리 액세스를 심층적으로 최적화하고, 최적의 공동 설계 스키ーム (co-design scheme) 를 도출하기 위한 성능 모델을 수립합니다. 결과적인 하드웨어는 완전히 파이프라인화된 병렬 구조를 채택하며 긴 시퀀스에도 불구하고 $O(n)$ 의 효율성을 달성합니다. 실험 결과, 우리의 설계는 A100 대비 3.82 배의 속도 향상과 74.19 배의 에너지 효율을 제공합니다. 최신 가속기 (SOTA accelerators) 와 비교할 때, 이는 긴 컨텍스트 추론을 효율적으로 지원하는 최초의 ASIC 가속기로, 최소 3.5 배 더 높은 처리량과 2.08 배 더 나은 에너지 효율을 보입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0