HZO 강유전체 커패시터를 이용한 비휘발성 전하 영역 어텐션: 시뮬레이션 기반 소자-시스템 평가
요약
HZO 강유전체 멤커패시터를 활용하여 비휘발성 전하 영역 어텐션 연산을 수행하는 FCDC 소자를 제안합니다. 시뮬레이션 결과, LLM의 성능 저하를 최소화하면서도 기존 GPU 대비 에너지 효율을 획기적으로 높일 수 있음을 입증했습니다.
핵심 포인트
- HZO 강유전체 기반 비휘발성 전하 영역 연산 셀(FCDC) 제안
- LLM 추론 시 디지털 베이스라인 대비 성능 저하 최소화
- 기존 GPU 대비 토큰당 서비스 에너지 18-35배 절감 가능
- KV-캐시 상주성을 통한 에너지 효율 극대화
Transformer 디코딩 (decoding)은 어텐션 연산 (attention compute)과 KV-캐시 (KV-cache) 이동 모두에 의해 제약을 받습니다. 본 논문은 아날로그 상태를 비휘발성 (nonvolatilely)으로 저장하고 어텐션을 위한 전하 영역 VMM (charge-domain VMM)을 수행하는 액세스 소자를 갖춘 하프늄-지르코늄-옥사이드 (HZO) 멤커패시터 (memcapacitor)인 강유전체 전하 영역 연산 셀 (Ferroelectric Charge-Domain Compute Cell, FCDC)을 제시합니다. 두 가지 배포 모드가 평가되었습니다: q, k, v, o 프로젝션 (projections) 및 두 어텐션 행렬 곱 (matmuls)을 FCDC에서 실행하는 전체 기판 (full-substrate) 모드와, KV만을 저장하고 두 어텐션 행렬 곱을 실행하는 KV-코프로세서 (KV-coprocessor) 모드입니다. 프로젝션 노이즈 예산 (projection-noise budget)이 코프로세서 모드의 상한선을 결정합니다. 소자-시스템 모델은 ngspice, CrossSim, FiPy, NeuroSim을 통해 교차 검증되었으며, 최근 웨이퍼 스케일 (wafer-scale) 10 nm HZO 측정값에 기반을 두었습니다. 12개의 사전 학습된 LLM (1.1-32 B 밀집 (dense) 모델, 그리고 k=75%에서의 부분 레이어 Mixtral-8x22B 141 B-MoE 스트레스 테스트 및 128 k-컨텍스트 밀집-Mistral 복제 모델 포함)에 대해, 전 레이어 노이즈 치환 (all-layer noise substitution)은 Qwen3-32B에서 WikiText-2 퍼플렉시티 (perplexity)를 +2.62%만 추가하였고, Mistral-7B-v0.3에서는 +2.90% +/- 0.33%를 추가했습니다 (5개 시드 평균). 엔드-투-엔드 (End-to-end) 아날로그 어텐션은 TinyLlama-1.1B에서 최대 +1.68 pp를 추가하며, 7 B 이상의 모든 모델에서는 +/- 1 pp 미만으로 감소합니다. HellaSwag, ARC, LAMBADA, GSM8K에서의 다운스트림 정확도 (Downstream accuracy)는 Mistral-7B의 경우 디지털 베이스라인 (digital baseline)의 5% 이내를 유지합니다 (MMLU -1.6 pp). 핵심적인 에너지 이점은 비휘발성 (nonvolatility), 리프레시 (refresh) 없음, 그리고 KV-캐시 상주성 (residency)입니다. 측정된 INT4 디코딩 에너지에 기반한 워크로드 레벨 시뮬레이터는 단일 사용자 INT4 GPU 베이스라인 대비 RAG 및 에이전트 루프 (agent loops)에서 토큰당 서비스 에너지를 18-35배 낮게 제공합니다. 최적화된 GPU 서빙 (batched vLLM, CPU+NVMe park, power-gate)과 비교했을 때, 견고한 이점은 1.36-4.69배로 줄어들지만, 수 시간 동안 상주하는 파킹 세션 (parked sessions)에서는 41배 이상을 유지합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기