arXiv중요논문2026. 04. 23. 23:10

PIM 기반 LLM 활성화 양자화로 메모리 병목 해소 (AQPIM)

요약

본 논문은 데이터 집약적 ML의 메모리 병목 현상을 해결하는 유망한 아키텍처인 Processing-in-Memory (PIM)을 다룹니다. 기존 PIM 방식들은 특히 긴 컨텍스트에서 발생하는 거대한 KV 캐시 크기(활성화 메모리 발자국)를 처리하는 데 어려움을 겪었습니다. 본 연구는 이러한 문제를 해결하기 위해, 활성화 특성에 최적화된 새로운 PIM 인식 활성화 양자화 프레임워크인 AQPIM을 제안합니다. AQPIM은 Product Quantization (PQ) 기반으로 설계되어 메모리 내에서 직접 양자화를 수행함으로써, LLM의

핵심 포인트

AQPIM은 PIM 환경에 특화된 새로운 활성화 양자화 프레임워크입니다.
이 방식은 Product Quantization (PQ)을 활용하여 메모리 내에서 직접 양자화를 수행합니다.
AQPIM은 GPU-CPU 통신으로 인한 디코딩 지연 시간을 크게 줄여 성능을 향상시킵니다.
실험 결과, AQPIM은 기존 최고 수준의 PIM 접근 방식 대비 3.4배의 속도 향상을 달성했습니다.

데이터 집약적 머신러닝에서 메모리 병목 현상은 큰 문제입니다. Processing-in-Memory (PIM) 아키텍처는 이 문제를 해결할 유망한 대안으로 주목받고 있습니다.

하지만 기존 PIM 방식들은 트랜스포머 기반 모델이 긴 컨텍스트를 처리하며 발생하는 막대한 KV 캐시 크기, 즉 활성화 메모리 발자국을 감당하기 어렵다는 한계가 있었습니다. 또한, 일반적인 양자화 기법들이 활성화의 고유한 특성을 충분히 활용하지 못하는 문제도 지적되었습니다.

이러한 문제를 해결하고자 본 논문은 PIM에 최적화된 새로운 활성화 양자화 프레임워크인 AQPIM을 제안합니다. AQPIM은 Product Quantization (PQ) 기반으로 설계되었으며, 메모리 내에서 직접 양자화를 수행하는 것이 핵심입니다.

AQPIM의 가장 큰 장점은 PIM의 높은 내부 대역폭(internal bandwidth)을 활용하여 압축된 데이터로 직접 계산이 가능하다는 점입니다. 이를 통해 활성화 메모리 발자국과 연산 오버헤드를 동시에 크게 줄일 수 있습니다.

실험 결과에 따르면, AQPIM은 디코딩 지연 시간의 90%~98.5%를 차지하는 GPU-CPU 통신을 대폭 감소시키며, 기존 최고 성능 PIM 접근 방식 대비 3.4배의 속도 향상을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

PIM 기반 LLM 활성화 양자화로 메모리 병목 해소 (AQPIM)

요약

핵심 포인트

댓글