arXiv논문2026. 06. 25. 12:06

GB-Scale Last-Level Cache 내 캐시 상주형 LLM 추론

요약

GB-scale Last-Level Cache(LLC)를 활용하여 LLM 추론 성능을 극대화하는 새로운 캐시 상주 실행 모델을 제안합니다. 가중치 중심 연산자와 KV-캐시 관리를 분리하여 파이프라인 깊이와 관계없이 효율적인 추론이 가능하도록 설계되었습니다.

핵심 포인트

3D 적층 캐시를 활용한 모델 가중치의 칩 내 상주 기술 제안
가중치-어텐션 분리 아키텍처를 통한 리소스 도메인 최적화
연산자 경계 동기화 오버헤드를 서브-연산자 의존성 단위로 완화
Llama-3.2-3B 및 Llama-2-7B 기준 최대 13.9x TPOT 속도 향상 달성

대규모 언어 모델 (LLM) 추론은 메모리 계층 구조 전반에 걸친 데이터 이동에 의해 점점 더 지배되고 있습니다. 최근의 3D 적층 캐시 (3D-stacked cache) 기술은 현대 서버 CPU에서 GB-scale의 Last-Level Cache (LLC)를 가능하게 하여, 재사용 가능한 모델 가중치 (model weights)를 칩 위에 유지하고 캐시 대역폭 (bandwidth)과 지연 시간 (latency)을 활용하는 것을 가능하게 했습니다. 이러한 체제를 달성하는 것은 간단하지 않습니다. 가중치 상주 (weight residency)를 위한 더 깊은 파이프라이닝 (pipelining)은 인플라이트 요청 (in-flight requests)과 KV-캐시 (KV-cache) 점유 공간을 증가시키는 반면, 캐시 상주 연산자 (cache-resident operators)는 연산자 경계 동기화 (operator-boundary synchronization)를 눈에 보이는 병목 현상으로 만듭니다. 우리는 계층적 메모리 클러스터 시스템 (hierarchical-memory clustered systems)에서의 추론을 위한 캐시 상주 실행 모델을 제시합니다. 이 모델은 가중치 중심 연산자를 어텐션 (attention) 및 KV-캐시 관리로부터 분리하여 전용 리소스 도메인으로 나누며, 재사용 가능한 가중치를 캐시에 상주시키는 동시에 파이프라인 깊이와 독립적으로 KV 용량을 확장합니다. 또한 동기화 범위를 연산자 경계에서 실제 서브-연산자 의존성 (sub-operator dependencies)으로 완화하여, 캐시 상주 체제에서의 조정 오버헤드 (coordination overhead)를 줄입니다. 우리는 가중치-어텐션 분리 아키텍처 (weight-attention decoupled architecture), 지역성 인식 배치 (locality-aware placement), 그리고 특화된 정적 런타임 (static runtime)을 갖춘 멀티 소켓 CPU 클러스터에 이 모델을 구현했습니다. 프로토타입은 동일한 자원이 할당된 llama.cpp보다 실질적으로 뛰어난 성능을 보입니다. 배포된 Llama-3.2-3B 및 Llama-2-7B 구성에서, 이 모델은 토큰당 생성 시간 (TPOT, time-per-output-token) 기준 2.04x-11.51x의 속도 향상을 달성했습니다. 검증된 분석 모델 하에서, 모델 크기, 컨텍스트 길이 (context lengths), 배치 크기 (batch sizes) 전반에 걸쳐 최대 13.9x의 TPOT 속도 향상에 도달했습니다. 이러한 결과는 GB-scale의 Last-Level Cache를 갖춘 범용 CPU가 캐시 상주, 분리된 상태 관리 (decoupled state management), 그리고 의존성 인식 조정 (dependency-aware coordination)을 중심으로 실행을 구성할 때 효율적인 LLM 추론을 지원할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

GB-Scale Last-Level Cache 내 캐시 상주형 LLM 추론

요약

핵심 포인트

댓글