PIM 기반 LLM 활성화 양자화로 메모리 병목 해소 (AQPIM)
요약
본 논문은 데이터 집약적 ML의 메모리 병목 현상을 해결하는 유망한 아키텍처인 Processing-in-Memory (PIM)을 다룹니다. 기존 PIM 방식들은 특히 긴 컨텍스트에서 발생하는 거대한 KV 캐시 크기(활성화 메모리 발자국)를 처리하는 데 어려움을 겪었습니다. 본 연구는 이러한 문제를 해결하기 위해, 활성화 특성에 최적화된 새로운 PIM 인식 활성화 양자화 프레임워크인 AQPIM을 제안합니다. AQPIM은 Product Quantization (PQ) 기반으로 설계되어 메모리 내에서 직접 양자화를 수행함으로써, LLM의
핵심 포인트
- AQPIM은 PIM 환경에 특화된 새로운 활성화 양자화 프레임워크입니다.
- 이 방식은 Product Quantization (PQ)을 활용하여 메모리 내에서 직접 양자화를 수행합니다.
- AQPIM은 GPU-CPU 통신으로 인한 디코딩 지연 시간을 크게 줄여 성능을 향상시킵니다.
- 실험 결과, AQPIM은 기존 최고 수준의 PIM 접근 방식 대비 3.4배의 속도 향상을 달성했습니다.
데이터 집약적 머신러닝에서 메모리 병목 현상은 큰 문제입니다. Processing-in-Memory (PIM) 아키텍처는 이 문제를 해결할 유망한 대안으로 주목받고 있습니다.
하지만 기존 PIM 방식들은 트랜스포머 기반 모델이 긴 컨텍스트를 처리하며 발생하는 막대한 KV 캐시 크기, 즉 활성화 메모리 발자국을 감당하기 어렵다는 한계가 있었습니다. 또한, 일반적인 양자화 기법들이 활성화의 고유한 특성을 충분히 활용하지 못하는 문제도 지적되었습니다.
이러한 문제를 해결하고자 본 논문은 PIM에 최적화된 새로운 활성화 양자화 프레임워크인 AQPIM을 제안합니다. AQPIM은 Product Quantization (PQ) 기반으로 설계되었으며, 메모리 내에서 직접 양자화를 수행하는 것이 핵심입니다.
AQPIM의 가장 큰 장점은 PIM의 높은 내부 대역폭(internal bandwidth)을 활용하여 압축된 데이터로 직접 계산이 가능하다는 점입니다. 이를 통해 활성화 메모리 발자국과 연산 오버헤드를 동시에 크게 줄일 수 있습니다.
실험 결과에 따르면, AQPIM은 디코딩 지연 시간의 90%~98.5%를 차지하는 GPU-CPU 통신을 대폭 감소시키며, 기존 최고 성능 PIM 접근 방식 대비 3.4배의 속도 향상을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기