ReasonAlloc: 추론 모델을 위한 계층적 디코딩 시간 KV 캐시 예산 할당
요약
ReasonAlloc은 긴 사고 사슬(CoT)을 사용하는 LLM의 KV 캐시 병목 현상을 해결하기 위한 새로운 훈련 불필요(Training-free) 프레임워크입니다. 레이어별 사전 할당과 실시간 헤드별 재할당을 통해 추론 성능을 유지하면서도 효율적인 메모리 관리를 가능하게 합니다.
핵심 포인트
- CoT 추론 시 발생하는 급격한 KV 캐시 증가 문제 해결
- 레이어 및 헤드 단위의 계층적 예산 할당 전략 제안
- DeepSeek-R1 계열 모델의 수학적 추론 성능 입증
- 기존 토큰 제거 정책과 결합 가능한 플러그 앤 플레이 방식
대규모 언어 모델 (LLM) 추론에서 발생하는 긴 사고 사슬 (Chain-of-Thought, CoT) 궤적은 급격한 키-값 (Key-Value, KV) 캐시 성장으로 인해 심각한 추론 병목 현상을 야기합니다. 현재의 디코딩 시간 압축 방법들은 토큰 제거 (Token Eviction)를 통해 이 문제를 완화하지만, 일반적으로 모든 레이어 (Layer)와 헤드 (Head)에 걸쳐 균일한 예산 분포를 가정합니다. 반면, 기존의 비균일 예산 할당 방법들은 주로 정적인 프롬프트 프리필 (Prompt Prefill) 단계를 위해 설계되었으며, 자기회귀적 (Autoregressive) 추론의 단계별 문맥 요구 사항을 포착하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 디코딩 시간 KV 압축을 계층적 예산 할당 문제로 재구성하는 훈련이 필요 없는 (Training-free) 프레임워크인 ReasonAlloc을 제안합니다. ReasonAlloc은 두 가지 상호 보완적인 수준에서 작동합니다. 오프라인 레이어별 사전 할당 전략은 우리가 "Reasoning Wave"라고 부르는 아키텍처 기반의 수요 패턴을 포착하며, 온라인 헤드별 전략은 디코딩 중에 실시간 유용성에 따라 정보가 풍부한 헤드로 리소스를 재할당합니다. DeepSeek-R1-Distill-Llama-8B, DeepSeek-R1-Distill-Qwen-14B, 그리고 AceReason-14B를 사용하여 수학적 추론 벤치마크 (MATH-500, AIME 2024)에서 평가한 결과, ReasonAlloc은 균일 예산 방식인 R-KV, SnapKV, 그리고 Pyramid-RKV (정적이고 단조 감소하는 레이어 예산을 강제하는 베이스라인)보다 우수한 성능을 보였으며, 특히 작은 예산 (128-512 토큰)에서 가장 큰 이득을 보였습니다. ReasonAlloc은 기존의 토큰 제거 정책과 플러그 앤 플레이 (Plug-and-play) 방식으로 결합 가능하며, 무시할 수 있는 수준의 추론 시간 오버헤드만을 발생시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기