arXiv논문2026. 04. 29. 21:43

Salca: 효율적인 긴 컨텍스트 어텐션 디코딩을 위한 희소성 인식 하드웨어 가속기

요약

본 기술 기사는 대형 언어 모델(LLM)이 긴 컨텍스트를 처리할 때 발생하는 계산 및 메모리 병목 현상을 해결하기 위한 하드웨어 가속기를 제안합니다. 소프트웨어적으로는 초저정밀도 양자화와 특징 희소성을 결합한 '이중 압축 동적 희소 어텐션'을 도입하고, 근사 Top-K 선택으로 복잡도를 최적화했습니다. 하드웨어 측면에서는 이러한 희소성 및 긴 컨텍스트의 상호작용에 맞춰 계산과 메모리 액세스를 깊이 있게 최적화한 ASIC 가속기를 설계하여, 기존 대비 월등히 높은 속도와 에너지 효율을 달성했습니다.

핵심 포인트

LLM의 긴 컨텍스트 처리는 KV 캐시 접근 증가로 인해 심각한 하드웨어 병목 현상을 야기한다.
소프트웨어적으로는 '이중 압축 동적 희소 어텐션'을 통해 예측 오버헤드를 최소화하고 효율성을 높였다.
하드웨어 가속기는 완전히 파이프라인화된 병렬 구조를 채택하여 긴 시퀀스에서도 $O(n)$의 선형 효율성을 달성한다.
제안된 ASIC은 A100 대비 3.82배의 속도 향상과 74.19배의 에너지 효율을 보여준다.
이는 긴 컨텍스트 추론에 특화된 최초의 고효율 ASIC 가속기 설계이다.

긴 컨텍스트는 대형 언어 모델의 능력을 향상시키지만 심각한 하드웨어 과제를 제기합니다: 계산 및 메모리 부피가 시퀀스 길이에 따라 선형적으로 증가하기 때문입니다. 특히, 디코딩 단계에서는 방대한 KV 캐시를 지속적으로 액세스하여 대역폭과 컴퓨팅 압력을 급격히 증가시킵니다. 기존 가속기는 주로 짧은 컨텍스트를 대상으로 설계 및 평가되었습니다. 긴 컨텍스트를 처리할 때 상당한 성능 저하를 겪습니다. 이 격차를 해소하기 위해 우리는 주요 병목 현상을 식별하고 하드웨어-소프트웨어 공동 설계를 통해 긴 컨텍스트 어텐션 디코딩을 위한 하드웨어 가속기를 제시합니다. 소프트웨어 측면에서는 이중 압축 동적 희소 어텐션 (dual-compression dynamic sparse attention) 을 제안합니다. 이는 초저정밀도 양자화 (ultra-low-precision quantization) 와 특징 희소성 (feature sparsity) 을 결합하여 예측 오버헤드를 최소화합니다. 하드웨어 친화적인 근사 Top-K 선택 (approximate Top-K selection) 은 필터 복잡도를 $O(n \log k)$ 에서 $O(n)$ 으로 추가로 줄입니다. 하드웨어 측면에서는 희소 어텐션과 긴 컨텍스트 간의 복잡한 상호작용에서 발생하는 병목 현상을 해결하기 위해 계산 및 메모리 액세스를 심층적으로 최적화하고, 최적의 공동 설계 스키ーム (co-design scheme) 를 도출하기 위한 성능 모델을 수립합니다. 결과적인 하드웨어는 완전히 파이프라인화된 병렬 구조를 채택하며 긴 시퀀스에도 불구하고 $O(n)$ 의 효율성을 달성합니다. 실험 결과, 우리의 설계는 A100 대비 3.82 배의 속도 향상과 74.19 배의 에너지 효율을 제공합니다. 최신 가속기 (SOTA accelerators) 와 비교할 때, 이는 긴 컨텍스트 추론을 효율적으로 지원하는 최초의 ASIC 가속기로, 최소 3.5 배 더 높은 처리량과 2.08 배 더 나은 에너지 효율을 보입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Salca: 효율적인 긴 컨텍스트 어텐션 디코딩을 위한 희소성 인식 하드웨어 가속기

요약

핵심 포인트

댓글