본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 29. 19:07

NVLLM: 에지 온-디바이스 LLM 추론을 가능하게 하는 3D NAND 중심 아키텍처

요약

NVLLM은 에지 디바이스에서 대규모 언어 모델(LLM)의 추론을 가능하게 하는 혁신적인 3D NAND 중심 아키텍처입니다. 이 아키텍처는 FFN 계산을 플래시 메모리로 오프로드하고 어텐션 메커니즘을 경량 CMOS 로직으로 처리하며, 외부 DRAM 의 의존성을 최소화합니다. 웨이퍼 투 웨이퍼 스태킹 기술을 활용하여 3D NAND를 컴퓨트 파이프라인과 통합함으로써 페이지 레벨의 FFN 가중치 액세스를 구현하고, 기존 GPU 기반 또는 SSD 기반 시스템 대비 월등한 성능 향상을 달성했습니다.

핵심 포인트

  • NVLLM은 에지 디바이스에서 LLM 추론을 위한 3D NAND 중심 아키텍처를 제시합니다.
  • FFN 계산을 플래시 메모리로 오프로드하고 어텐션 연산을 CMOS 로직으로 처리하여 DRAM 의존성을 줄였습니다.
  • 웨이퍼 스태킹 기술로 3D NAND와 컴퓨팅 유닛을 통합하여 페이지 레벨의 가중치 액세스를 구현했습니다.
  • 최대 30B 파라미터 모델에서 A800 기반 아웃 오브 코어 추론 대비 최대 37.9배, SSD 대비 최대 4.7배의 속도 향상을 입증했습니다.

LLM 의 급속한 성장은 제한된 리소스를 가진 에지 디바이스에서 고처리율, 메모리 용량 집약적 추론을 요구하며, 여기서 단일 배치 디코딩은 근본적으로 메모리 바운드입니다. 기존 아웃 오브 코어 GPU 기반 및 SSD 와 같은 가속기는 DRAM 바운드 가중치 이동과 비효율적인 스토리지 액세스 그레인도로 제한됩니다. 우리는 피드포워드 네트워크 (FFN) 계산을 플래시 (Flash) 로 오프로드하고 경량 CMOS 로직으로 어텐션을 실행하면서 외부 DRAM 을 사용하는 3D NAND 중심 추론 아키텍처인 NVLLM 을 제시합니다. 웨이퍼 투 웨이퍼 스택킹을 통해 NVLLM 은 다중 평면 3D NAND 를 컴퓨트 파이프라인, 오류 정정 코드 (ECC) 유닛 및 버퍼와 긴밀히 통합하여 DRAM 탐색 없이 페이지 레벨의 FFN 가중치 액세스를 가능하게 합니다. 모든 GEMM/GEMV 연산은 원시 NAND 읽기를 직접 처리하는 오더드 PE 레인을 통해 도트 프로덕트 프러imitives 로 분해되며, 통합 ECC 와 함께 작동합니다. 어텐션 가중치는 DRAM 에 유지되며, 컨텍스트 길이가 증가함에 따라 처리량을 유지하기 위해 KV-cache 의식 스케줄러가 사용됩니다. 최대 30B 파라미터를 가진 OPT 및 LLaMA 모델에서 평가한 결과, NVLLM 은 A800 기반 아웃 오브 코어 추론 대비 16.7$ imes$--37.9$ imes$ 속도 향상과 SSD 와 같은 설계 대비 최대 4.7$ imes$ 속도 향상을 달성하며, CMOS 면적 오버헤드는仅为 2.7 ext{ extperthousand}입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
7

댓글

0