NASiC: 효율적인 온디바이스 Mixture-of-Experts LLM 추론을 위한 3D NAND 기반 CAM 선택형 멀티비트 CIM 아키텍처
요약
MoE 모델의 온디바이스 배포를 위해 3D NAND 기반의 새로운 CIM 아키텍처인 NASiC을 제안합니다. CAM 기반 마스킹과 멀티비트 CIM 셀을 결합하여 동적 전문가 선택과 계산을 통합함으로써 에너지 효율과 처리량을 획기적으로 개선했습니다.
핵심 포인트
- 3D NAND 기반 CAM 선택형 멀티비트 CIM 아키텍처 제안
- 동적 전문가 선택과 계산을 단일 사이클로 통합하여 병렬성 향상
- 기존 설계 대비 성능 최대 114.8배, 에너지 효율 최대 70배 향상
- 온디바이스 MoE LLM 추론을 위한 고밀도 메모리 활용 최적화
Mixture-of-Experts (MoE) 모델은 계산 비용을 비례적으로 증가시키지 않으면서 대규모 언어 모델 (LLMs)을 확장할 수 있는 최첨단 패러다임으로 등장했습니다. 그러나 모든 전문가 (expert) 파라미터를 저장하기 위한 방대한 메모리 요구 사항으로 인해 온디바이스 (on-device) 배포는 심각한 과제에 직면해 있습니다. 3D NAND 기반 컴퓨팅 인 메모리 (CIM) 아키텍처는 높은 저장 용량과 데이터 이동 감소라는 독특한 이점을 제공하지만, 동적으로 희소한 전문가 활성화 (dynamically sparse expert activation)가 발생하는 MoE 모델에는 부적합하여, Flash 셀의 멀티비트 (multibit) 저장 능력을 활용하지 못할 뿐만 아니라 유효한 계산 병렬성 (computational parallelism)의 저하를 초래합니다. 본 연구에서는 MoE 모델에 최적화된 NASiC이라 명명된 3D NAND 기반 콘텐츠 주소 지정 선택형 (content addressable-selected) CIM 아키텍처를 제안합니다. 3D NAND 기술의 고유한 스트링 (string) 구조를 활용함으로써, NASiC은 CAM 기반 마스킹 (masking) 메커니즘을 통한 동적 전문가 선택과 CIM을 통한 활성화된 전문가 계산을 단일 계산 사이클로 통합하여, 중복 계산을 제거하고 계산 병렬성을 향상시킵니다. 또한, 제안된 NASiC 아키텍처와 함께 회로 수준의 최적화 및 멀티비트 CIM 셀이 공동 설계되었으며, 이는 인시츄 (in-situ) 부호 있는 멀티비트 입력 및 가중치 확장 (weight expansion)을 포함한 블록 단위 병렬 계산을 특징으로 하여, NAND CIM 어레이의 처리량(throughput)과 에너지 효율성을 실질적으로 개선하고 MoE 모델을 위한 고밀도 3D NAND 기술의 활용도를 높입니다. 광범위한 실험 결과를 통해, NASiC은 높은 정확도와 함께 최첨단 설계 대비 4-114.8배 향상된 성능과 3.9-70배 향상된 에너지 효율을 달성함을 입증하였으며, 이는 효율적인 온디바이스 MoE LLM 추론을 위한 뛰어난 잠재력을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기