Meta-Soft: 문맥 보존형 KV Cache 압축을 위한 결합 가능한 Meta-Tokens 활용
요약
LLM의 긴 문맥 처리 시 발생하는 KV 캐시 메모리 문제를 해결하기 위해 동적 압축 프레임워크인 Meta-Soft를 제안합니다. 입력 프롬프트에 맞춰 Soft Tokens를 동적으로 합성하고, 제거된 정보의 의미를 유지된 토큰에 재분배하여 정보 손실을 최소화합니다.
핵심 포인트
- 정적 파라미터 대신 입력 프롬프트에 동적으로 적응하는 메타 토큰 활용
- Gumbel-Softmax 기반의 선택 네트워크로 최적의 Soft Tokens 합성
- 어텐션 흐름 기반 메커니즘을 통한 탈락된 문맥 정보 보존
- 기존 SOTA 방식 대비 우수한 KV 캐시 압축 성능 입증
대규모 언어 모델 (LLM)에서 사용되는 KV 캐시 (KV cache)는 시간 복잡도가 선형적으로 증가하기 때문에, LLM은 긴 문맥 (long contexts)을 처리할 때 메모리 폭증과 디코딩 효율 저하 문제에 직면합니다. 현재 KV 캐시 제거 (KV Cache eviction)는 중요한 연구 방향이 되었으나, 고정된 Soft Tokens (예: Judge Q)에 기반한 기존 방식들은 KV 쌍의 중요도를 평가하기 위한 쿼리 (query)로 정적 파라미터 세트에 의존합니다. 따라서 이들은 서로 다른 입력 프롬프트 (input prompts)에 동적으로 적응할 수 없으며, 복잡하고 변화하는 작업 관련성 (task relevance)을 정밀하게 포착할 수 없습니다. 또한, 제거된 KV 쌍은 영구적으로 폐기되므로, 이는 되돌릴 수 없는 정보 손실과 문맥 단절을 초래합니다. 이 문제를 해결하기 위해, 우리는 탐침 기반 문맥 통합 (probe-driven context integration)에 기반한 동적 압축 프레임워크인 Meta-Soft를 제안합니다. 구체적으로, 우리는 학습 가능한 직교 기저 행렬 (orthogonal basis matrix) $\mathcal{L}$을 가진 메타 라이브러리 (meta-library)를 구축하며, Gumbel-Softmax를 사용하는 선택 네트워크 (selector network)를 사용하여 미분 가능한 희소 결합 가중치 (differentiable sparse combination weights)를 생성함으로써, 입력 프롬프트 특징으로부터 가장 타겟팅된 $k$개의 Soft Tokens를 동적으로 합성합니다. 우리는 핵심 정보를 탐침하기 위해 이 Soft Tokens를 입력 시퀀스의 끝에 추가합니다. 또한, 제거된 토큰의 의미 정보 (semantic information)를 유지된 토큰으로 재분배하는 어텐션 흐름 (attention-flow) 기반 통합 메커니즘을 도입하며, 이를 통해 탈락된 문맥 정보를 효과적으로 보존합니다. 여러 데이터셋에 대한 실험 결과, 우리의 방법은 기존의 최첨단 (state-of-the-art) 제거 방식들을 능가하며 KV 캐시 압축을 위한 새로운 솔루션을 제공함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기