arXiv논문2026. 04. 30. 14:01

DUAL-BLADE: 엣지 LLM 추론을 위한 듀얼 패스 NVMe-직접 KV 캐치 오프로딩

요약

본 기술 기사는 엣지 AI 시스템의 LLM 추론 시 발생하는 KV 캐시 메모리 부족 문제를 해결하기 위한 DUAL-BLADE 프레임워크를 제안합니다. 기존 NVMe 오프로딩 방식이 커널 페이지 캐시에 의존하여 지연 시간과 오버헤드가 높았던 단점을 개선했습니다. DUAL-BLADE는 런타임에 KV 텐서를 GPU 메모리(페이지 캐시) 또는 파일 시스템을 우회하는 직접적인 NVMe 경로로 동적으로 할당하며, I/O와 GPU DMA를 중첩하여 추론 처리량을 크게 향상시키는 것이 핵심입니다.

핵심 포인트

엣지 LLM 추론의 주요 병목 현상은 제한된 메모리 예산 하에서의 KV 캐시 관리 문제입니다.
기존 NVMe 오프로딩은 커널 페이지 캐시에 의존하여 성능 저하(캐시 스래싱, 높은 지연 시간)가 발생했습니다.
DUAL-BLADE는 런타임에 KV 텐서를 GPU 메모리 또는 직접적인 NVMe 경로로 동적으로 할당하는 하이브리드 프레임워크입니다.
NVMe-직접 패스는 파일 시스템을 우회하여 저오버헤드의 스토리지 액세스를 제공하며, I/O와 GPU DMA를 중첩시켜 효율성을 극대화합니다.
평가 결과, DUAL-BLADE는 디코드 지연 시간을 최대 42.4% 감소시키고 SSD 활용도를 2.2배 향상시키는 성능을 입증했습니다.

엣지 AI 시스템에서의 대규모 언어 모델 (LLM) 추론 배포가 증가함에 따라 제한된 메모리 예산 하에서 효율적인 실행이 요구됩니다. 주요 과제는 키-밸류 (KV) 캐시이며, 이는 종종 사용 가능한 장치 메모리를 초과합니다. NVMe 기반 오프로딩은 확장 가능한 용량을 제공하지만, 기존 파일 기반 설계는 커널 페이지 캐시에 크게 의존하여 메모리 압박 하에서 캐시 스래싱, 예측 불가능한 지연 시간 및 높은 소프트웨어 오버헤드를 초래합니다. 우리는 런타임 메모리 가용성에 따라 KV 텐서를 페이지 캐시 패스 또는 NVMe-직접 패스로 동적으로 할당하는 듀얼 패스 KV 레지던시 프레임워크인 DUAL-BLADE 를 제시합니다. NVMe-직접 패스는 파일 시스템을 우회하여 KV 텐서를 연속적인 논리적 블록 주소 (LBA) 영역에 매핑함으로써 저오버헤드 직접 스토리지 액세스를 가능하게 합니다. DUAL-BLADE 는 또한 스토리지 I/O 와 GPU DMA 를 중첩하는 적응형 파이프라인 병렬성을 추가하여 추론 처리량을 개선합니다. 우리의 평가 결과, DUAL-BLADE 는 I/O 병목 현상을 크게 완화하며, 프리필 및 디코드 지연 시간을 각각 최대 33.1% 와 42.4% 줄이고 다양한 메모리 예산에서 SSD 활용도를 2.2 배 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

DUAL-BLADE: 엣지 LLM 추론을 위한 듀얼 패스 NVMe-직접 KV 캐치 오프로딩

요약

핵심 포인트

댓글