DUAL-BLADE: 엣지 LLM 추론을 위한 듀얼 패스 NVMe-직접 KV 캐치 오프로딩
요약
본 기술 기사는 엣지 AI 시스템의 LLM 추론 시 발생하는 KV 캐시 메모리 부족 문제를 해결하기 위한 DUAL-BLADE 프레임워크를 제안합니다. 기존 NVMe 오프로딩 방식이 커널 페이지 캐시에 의존하여 지연 시간과 오버헤드가 높았던 단점을 개선했습니다. DUAL-BLADE는 런타임에 KV 텐서를 GPU 메모리(페이지 캐시) 또는 파일 시스템을 우회하는 직접적인 NVMe 경로로 동적으로 할당하며, I/O와 GPU DMA를 중첩하여 추론 처리량을 크게 향상시키는 것이 핵심입니다.
핵심 포인트
- 엣지 LLM 추론의 주요 병목 현상은 제한된 메모리 예산 하에서의 KV 캐시 관리 문제입니다.
- 기존 NVMe 오프로딩은 커널 페이지 캐시에 의존하여 성능 저하(캐시 스래싱, 높은 지연 시간)가 발생했습니다.
- DUAL-BLADE는 런타임에 KV 텐서를 GPU 메모리 또는 직접적인 NVMe 경로로 동적으로 할당하는 하이브리드 프레임워크입니다.
- NVMe-직접 패스는 파일 시스템을 우회하여 저오버헤드의 스토리지 액세스를 제공하며, I/O와 GPU DMA를 중첩시켜 효율성을 극대화합니다.
- 평가 결과, DUAL-BLADE는 디코드 지연 시간을 최대 42.4% 감소시키고 SSD 활용도를 2.2배 향상시키는 성능을 입증했습니다.
엣지 AI 시스템에서의 대규모 언어 모델 (LLM) 추론 배포가 증가함에 따라 제한된 메모리 예산 하에서 효율적인 실행이 요구됩니다. 주요 과제는 키-밸류 (KV) 캐시이며, 이는 종종 사용 가능한 장치 메모리를 초과합니다. NVMe 기반 오프로딩은 확장 가능한 용량을 제공하지만, 기존 파일 기반 설계는 커널 페이지 캐시에 크게 의존하여 메모리 압박 하에서 캐시 스래싱, 예측 불가능한 지연 시간 및 높은 소프트웨어 오버헤드를 초래합니다. 우리는 런타임 메모리 가용성에 따라 KV 텐서를 페이지 캐시 패스 또는 NVMe-직접 패스로 동적으로 할당하는 듀얼 패스 KV 레지던시 프레임워크인 DUAL-BLADE 를 제시합니다. NVMe-직접 패스는 파일 시스템을 우회하여 KV 텐서를 연속적인 논리적 블록 주소 (LBA) 영역에 매핑함으로써 저오버헤드 직접 스토리지 액세스를 가능하게 합니다. DUAL-BLADE 는 또한 스토리지 I/O 와 GPU DMA 를 중첩하는 적응형 파이프라인 병렬성을 추가하여 추론 처리량을 개선합니다. 우리의 평가 결과, DUAL-BLADE 는 I/O 병목 현상을 크게 완화하며, 프리필 및 디코드 지연 시간을 각각 최대 33.1% 와 42.4% 줄이고 다양한 메모리 예산에서 SSD 활용도를 2.2 배 향상시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기