본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 13:44

SPARQLe: 양자화된 LLM 추론을 위한 하위 정밀도 활성화 표현 (Sub-Precision Activation Representation)

요약

SPARQLe는 LLM 추론 시 활성화 값의 통계적 특성을 활용하여 메모리 트래픽과 연산 비용을 줄이는 하드웨어-소프트웨어 공동 설계 프레임워크입니다. 활성화를 LSB 텐서와 희소한 MSB 텐서로 분리하여 압축함으로써 정확도를 유지하면서도 추론 지연 시간과 에너지 소비를 크게 개선합니다.

핵심 포인트

  • 활성화 값의 상위 비트 희소성을 활용한 하위 정밀도 표현 제안
  • LSB 텐서와 정밀도 비트맵 기반의 MSB 텐서 압축 방식 도입
  • Llama3 등 주요 모델에서 프리필 및 디코드 지연 시간 최대 24.3% 감소
  • 하드웨어 가속기를 포함한 효율적인 추론 에너지 절감 효과 입증

대규모 언어 모델 (LLMs)의 크기가 급격히 증가함에 따라 추론 (inference) 과정에서 높은 연산 및 메모리 비용이 발생하고 있습니다. 양자화 (Quantization)는 이러한 문제를 해결하기 위한 중요한 경로가 되어 왔습니다. 양자화의 한계를 넓히려는 시도 속에서, 정적인(static) 가중치 (weights)는 종종 공격적으로 양자화(예: 4 bits)될 수 있는 반면, 활성화 (activations)는 정확도를 유지하기 위해 더 높은 정밀도(예: 8 bits)를 요구하는 경우가 많아 하드웨어가 더 높은 정밀도의 데이터 경로 (datapaths)로 동작하도록 강제합니다. 우리는 활성화의 상당 부분이 0 주변에 집중되어 있어 상위 비트 (higher-order bits)에서 희소성 (sparsity)이 나타난다는 통계적 특성을 활용합니다. 우리가 제안하는 SPARQLe는 주어진 양자화 모델에서 이러한 하위 정밀도 중복성 (sub-precision redundancy)을 활용하는 하드웨어-소프트웨어 공동 설계 (hardware-software co-design) 프레임워크입니다. SPARQLe는 각 2k-bit 활성화 텐서 (activation tensor)를 밀집된 (dense) k-bit LSB 텐서와 정밀도 비트맵 (precision bitmap)으로 압축된 희소한 (sparse) k-bit MSB 텐서로 표현하며, MSB 희소성을 높이기 위한 경량 알고리즘을 제안합니다. SPARQLe는 2k-bit 활성화 정확도를 유지하면서 활성화 메모리 트래픽을 줄이고 k-bit 데이터 경로에서 효율적인 연산을 가능하게 합니다. SPARQLe는 최소한의 제어 오버헤드 (control overheads)로 이 하이브리드 형식에서 직접 동작하는 가속기 (accelerator)를 포함합니다. BitNet 3B, Llama2 7B, 그리고 Llama3 8B 모델 전반에 걸쳐, SPARQLe는 프리필 (prefill) 지연 시간을 16-24.3% 감소시키고 디코드 (decode) 지연 시간을 13.5-23.4% 감소시켰으며, 프리필 및 디코드 에너지는 각각 17-26.7% 및 6.5-14.2% 더 낮게 나타났습니다. SPARQLe는 하위 정밀도 활성화 희소성이 효율적인 LLM 추론을 향한 효과적이고 상호 보완적인 경로임을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0