arXiv논문2026. 04. 29. 19:07

NVLLM: 에지 온-디바이스 LLM 추론을 가능하게 하는 3D NAND 중심 아키텍처

요약

NVLLM은 에지 디바이스에서 대규모 언어 모델(LLM)의 추론을 가능하게 하는 혁신적인 3D NAND 중심 아키텍처입니다. 이 아키텍처는 FFN 계산을 플래시 메모리로 오프로드하고 어텐션 메커니즘을 경량 CMOS 로직으로 처리하며, 외부 DRAM 의 의존성을 최소화합니다. 웨이퍼 투 웨이퍼 스태킹 기술을 활용하여 3D NAND를 컴퓨트 파이프라인과 통합함으로써 페이지 레벨의 FFN 가중치 액세스를 구현하고, 기존 GPU 기반 또는 SSD 기반 시스템 대비 월등한 성능 향상을 달성했습니다.

핵심 포인트

NVLLM은 에지 디바이스에서 LLM 추론을 위한 3D NAND 중심 아키텍처를 제시합니다.
FFN 계산을 플래시 메모리로 오프로드하고 어텐션 연산을 CMOS 로직으로 처리하여 DRAM 의존성을 줄였습니다.
웨이퍼 스태킹 기술로 3D NAND와 컴퓨팅 유닛을 통합하여 페이지 레벨의 가중치 액세스를 구현했습니다.
최대 30B 파라미터 모델에서 A800 기반 아웃 오브 코어 추론 대비 최대 37.9배, SSD 대비 최대 4.7배의 속도 향상을 입증했습니다.

LLM 의 급속한 성장은 제한된 리소스를 가진 에지 디바이스에서 고처리율, 메모리 용량 집약적 추론을 요구하며, 여기서 단일 배치 디코딩은 근본적으로 메모리 바운드입니다. 기존 아웃 오브 코어 GPU 기반 및 SSD 와 같은 가속기는 DRAM 바운드 가중치 이동과 비효율적인 스토리지 액세스 그레인도로 제한됩니다. 우리는 피드포워드 네트워크 (FFN) 계산을 플래시 (Flash) 로 오프로드하고 경량 CMOS 로직으로 어텐션을 실행하면서 외부 DRAM 을 사용하는 3D NAND 중심 추론 아키텍처인 NVLLM 을 제시합니다. 웨이퍼 투 웨이퍼 스택킹을 통해 NVLLM 은 다중 평면 3D NAND 를 컴퓨트 파이프라인, 오류 정정 코드 (ECC) 유닛 및 버퍼와 긴밀히 통합하여 DRAM 탐색 없이 페이지 레벨의 FFN 가중치 액세스를 가능하게 합니다. 모든 GEMM/GEMV 연산은 원시 NAND 읽기를 직접 처리하는 오더드 PE 레인을 통해 도트 프로덕트 프러imitives 로 분해되며, 통합 ECC 와 함께 작동합니다. 어텐션 가중치는 DRAM 에 유지되며, 컨텍스트 길이가 증가함에 따라 처리량을 유지하기 위해 KV-cache 의식 스케줄러가 사용됩니다. 최대 30B 파라미터를 가진 OPT 및 LLaMA 모델에서 평가한 결과, NVLLM 은 A800 기반 아웃 오브 코어 추론 대비 16.7$ imes$--37.9$ imes$ 속도 향상과 SSD 와 같은 설계 대비 최대 4.7$ imes$ 속도 향상을 달성하며, CMOS 면적 오버헤드는仅为 2.7 ext{ extperthousand}입니다.

AI 자동 생성 콘텐츠

원문 바로가기

NVLLM: 에지 온-디바이스 LLM 추론을 가능하게 하는 3D NAND 중심 아키텍처

요약

핵심 포인트

댓글