arXiv논문2026. 04. 28. 14:49

DepthKV: 긴 컨텍스트 LLM 추론을 위한 레이어 의존적 KV 캐시 가지치기

요약

DepthKV는 긴 컨텍스트 LLM 추론 시 발생하는 메모리 병목 현상을 해결하기 위해 제안된 새로운 KV 캐시 가지치기 프레임워크입니다. 기존 방법들이 모든 레이어에 동일한 가지치 비율을 적용하는 한계를 가졌던 반면, DepthKV는 각 레이어의 성능 기여도(민감도)를 고려하여 전체 KV 캐시 예산을 할당합니다. 이를 통해 메모리 효율성을 높이면서도 모델의 추론 성능 저하를 최소화할 수 있음을 여러 실험에서 입증했습니다.

핵심 포인트

긴 컨텍스트 LLM 추론은 KV 캐시에 의존하며, 이는 시퀀스 길이에 따라 선형적인 메모리 증가 문제를 야기합니다.
기존의 KV 캐시 가지치기 방법들은 모든 레이어에 동일한 비율을 적용하여 최적화되지 않았습니다.
DepthKV는 각 레이어의 민감도(성능 기여도)를 측정하여, 전체 KV 캐시 예산을 레이어별로 차등 분배하는 프레임워크입니다.
DepthKV는 균일 가지치기 방식보다 메모리 효율성을 유지하면서 더 일관되고 우수한 추론 성능을 제공합니다.

긴 컨텍스트 추론 (long-context reasoning) 은 대형 언어 모델 (LLMs) 의 핵심 능력으로, 장문 문서 이해, 요약, 코드 생성과 같은 응용 프로그램을 가능하게 합니다. 그러나 효율적인 자동 회귀 추론 (autoregressive inference) 은 키-밸류 (KV) 캐시에 의존하며, 이는 시퀀스 길이에 따라 메모리 풋프린트가 선형적으로 증가하여 주요 메모리 병목 현상을 초래합니다. 이 과부하를 완화하기 위해 KV 캐시 가지치기 방법은 추론 중 주의력 점수가 낮은 토큰을 버립니다. 대부분의 기존 방법은 모든 레이어에 동일한 가지치 비율을 적용하여, 모든 레이어가 전체 모델 성능에 동등하게 기여한다고 암묵적으로 가정합니다. 우리는 이 가정이 최적이지 않음을 보여줍니다. 레이어들은 가지치기에 대한 민감도가 현저히 다르기 때문입니다. 우리는 레이어별 할당 대신 각 레이어의 민감도에 따라 고정된 전역 KV 예산을 분배하는 레이어 의존적 가지치기 프레임워크인 DepthKV 를 제안합니다. 여러 모델과 작업에서 DepthKV 는 동일한 전역 가지치 비율에서 균일 가지치보다 일관되게 우수한 성능을 보여주며, 레이어 의존적 할당을 통한 KV 캐시 예산의 보다 효과적인 활용을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DepthKV: 긴 컨텍스트 LLM 추론을 위한 레이어 의존적 KV 캐시 가지치기

요약

핵심 포인트

댓글