arXiv논문2026. 06. 02. 13:44

SPARQLe: 양자화된 LLM 추론을 위한 하위 정밀도 활성화 표현 (Sub-Precision Activation Representation)

요약

SPARQLe는 LLM 추론 시 활성화 값의 통계적 특성을 활용하여 메모리 트래픽과 연산 비용을 줄이는 하드웨어-소프트웨어 공동 설계 프레임워크입니다. 활성화를 LSB 텐서와 희소한 MSB 텐서로 분리하여 압축함으로써 정확도를 유지하면서도 추론 지연 시간과 에너지 소비를 크게 개선합니다.

핵심 포인트

활성화 값의 상위 비트 희소성을 활용한 하위 정밀도 표현 제안
LSB 텐서와 정밀도 비트맵 기반의 MSB 텐서 압축 방식 도입
Llama3 등 주요 모델에서 프리필 및 디코드 지연 시간 최대 24.3% 감소
하드웨어 가속기를 포함한 효율적인 추론 에너지 절감 효과 입증

대규모 언어 모델 (LLMs)의 크기가 급격히 증가함에 따라 추론 (inference) 과정에서 높은 연산 및 메모리 비용이 발생하고 있습니다. 양자화 (Quantization)는 이러한 문제를 해결하기 위한 중요한 경로가 되어 왔습니다. 양자화의 한계를 넓히려는 시도 속에서, 정적인(static) 가중치 (weights)는 종종 공격적으로 양자화(예: 4 bits)될 수 있는 반면, 활성화 (activations)는 정확도를 유지하기 위해 더 높은 정밀도(예: 8 bits)를 요구하는 경우가 많아 하드웨어가 더 높은 정밀도의 데이터 경로 (datapaths)로 동작하도록 강제합니다. 우리는 활성화의 상당 부분이 0 주변에 집중되어 있어 상위 비트 (higher-order bits)에서 희소성 (sparsity)이 나타난다는 통계적 특성을 활용합니다. 우리가 제안하는 SPARQLe는 주어진 양자화 모델에서 이러한 하위 정밀도 중복성 (sub-precision redundancy)을 활용하는 하드웨어-소프트웨어 공동 설계 (hardware-software co-design) 프레임워크입니다. SPARQLe는 각 2k-bit 활성화 텐서 (activation tensor)를 밀집된 (dense) k-bit LSB 텐서와 정밀도 비트맵 (precision bitmap)으로 압축된 희소한 (sparse) k-bit MSB 텐서로 표현하며, MSB 희소성을 높이기 위한 경량 알고리즘을 제안합니다. SPARQLe는 2k-bit 활성화 정확도를 유지하면서 활성화 메모리 트래픽을 줄이고 k-bit 데이터 경로에서 효율적인 연산을 가능하게 합니다. SPARQLe는 최소한의 제어 오버헤드 (control overheads)로 이 하이브리드 형식에서 직접 동작하는 가속기 (accelerator)를 포함합니다. BitNet 3B, Llama2 7B, 그리고 Llama3 8B 모델 전반에 걸쳐, SPARQLe는 프리필 (prefill) 지연 시간을 16-24.3% 감소시키고 디코드 (decode) 지연 시간을 13.5-23.4% 감소시켰으며, 프리필 및 디코드 에너지는 각각 17-26.7% 및 6.5-14.2% 더 낮게 나타났습니다. SPARQLe는 하위 정밀도 활성화 희소성이 효율적인 LLM 추론을 향한 효과적이고 상호 보완적인 경로임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SPARQLe: 양자화된 LLM 추론을 위한 하위 정밀도 활성화 표현 (Sub-Precision Activation Representation)

요약

핵심 포인트

댓글