본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 11:27

PALUTE: 에지 LLM 추론을 위한 룩업 테이블 기반의 프로세싱 인 메모리 (Processing-In-Memory) 가속기

요약

에지 디바이스의 LLM 추론 효율을 높이기 위해 M3D DRAM 기반의 LUT PIM 가속기인 PALUTE를 제안합니다. LUT 조회를 통해 비선형 연산 비용을 줄이고, 수직 구조를 활용해 낮은 면적 오버헤드와 높은 병렬성을 달성했습니다.

핵심 포인트

  • M3D DRAM 기반의 LUT 기반 PIM 가속기 PALUTE 제안
  • 인-DRAM LUT 쿼리를 통한 낮은 면적 오버헤드 및 높은 병렬성 확보
  • Qwen3-4B 모델 기준 1,264 TPS의 높은 처리량 달성
  • 기존 설계 대비 에너지 효율 및 면적 효율 대폭 향상

대규모 언어 모델 (Large language models, LLM)은 전력 및 면적 예산이 제한된 에지 디바이스 (edge devices)에 점점 더 많이 배치되고 있습니다. 혼합 정밀도 GEMM (mixed-precision GEMM)은 산술 복잡도를 줄여주지만, 양자화된 추론 (quantized inference)은 종종 역양자화 (dequantization) 및 비선형 연산자 (nonlinear operators)에 의해 지배됩니다. 룩업 테이블 (Lookup Table, LUT) 기반 방식은 출력을 미리 계산하고 반복적인 산술 연산을 테이블 조회 (table lookups)로 대체함으로써 이러한 비용을 완화하지만, 기존 설계는 상당한 용량 및 조회 지연 시간 (lookup-latency) 오버헤드를 발생시킵니다. 본 논문은 효율적인 에지 LLM 추론을 위해 Monolithic 3D DRAM (M3D DRAM)을 기반으로 구축된 LUT 기반 프로세싱 인 메모리 (Processing-In-Memory, PIM) 가속기인 PALUTE를 제안합니다. PALUTE는 M3D DRAM 메모리 어레이 타일의 수직 구조를 활용하는 인-DRAM (in-DRAM) LUT 쿼리를 가능하게 하여, 낮은 면적 오버헤드로 높은 병렬성을 달성합니다. 근접 메모리 (near-memory) LUT 생성기는 GEMM 및 요소별 단항 비선형 연산자 (element-wise unary nonlinear operators) 모두에 대해 저지연 LUT 생성을 지원하며, 시스템 수준의 계층화 및 스케줄링 전략은 메모리 계층 간의 데이터 이동을 최소화합니다. 사이클 단위 정밀 시뮬레이션 (cycle-accurate simulation) 및 RTL 합성 (RTL synthesis)을 사용한 평가 결과, PALUTE는 Qwen3-4B 모델의 W4A4 조건에서 0.16 W의 전력으로 1,264 TPS의 엔드 투 엔드 (end-to-end) 처리량을 달성하였으며, 이는 CHIME 대비 에너지 효율을 12.8배, FIGLUT 대비 1.6배 향상시킨 것이며, PIMPAL 대비 면적 효율을 2.0배 향상시킨 것입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0