arXiv논문2026. 05. 22. 11:20

Meta-Soft: 문맥 보존형 KV Cache 압축을 위한 결합 가능한 Meta-Tokens 활용

요약

LLM의 긴 문맥 처리 시 발생하는 KV 캐시 메모리 문제를 해결하기 위해 동적 압축 프레임워크인 Meta-Soft를 제안합니다. 입력 프롬프트에 맞춰 Soft Tokens를 동적으로 합성하고, 제거된 정보의 의미를 유지된 토큰에 재분배하여 정보 손실을 최소화합니다.

핵심 포인트

정적 파라미터 대신 입력 프롬프트에 동적으로 적응하는 메타 토큰 활용
Gumbel-Softmax 기반의 선택 네트워크로 최적의 Soft Tokens 합성
어텐션 흐름 기반 메커니즘을 통한 탈락된 문맥 정보 보존
기존 SOTA 방식 대비 우수한 KV 캐시 압축 성능 입증

대규모 언어 모델 (LLM)에서 사용되는 KV 캐시 (KV cache)는 시간 복잡도가 선형적으로 증가하기 때문에, LLM은 긴 문맥 (long contexts)을 처리할 때 메모리 폭증과 디코딩 효율 저하 문제에 직면합니다. 현재 KV 캐시 제거 (KV Cache eviction)는 중요한 연구 방향이 되었으나, 고정된 Soft Tokens (예: Judge Q)에 기반한 기존 방식들은 KV 쌍의 중요도를 평가하기 위한 쿼리 (query)로 정적 파라미터 세트에 의존합니다. 따라서 이들은 서로 다른 입력 프롬프트 (input prompts)에 동적으로 적응할 수 없으며, 복잡하고 변화하는 작업 관련성 (task relevance)을 정밀하게 포착할 수 없습니다. 또한, 제거된 KV 쌍은 영구적으로 폐기되므로, 이는 되돌릴 수 없는 정보 손실과 문맥 단절을 초래합니다. 이 문제를 해결하기 위해, 우리는 탐침 기반 문맥 통합 (probe-driven context integration)에 기반한 동적 압축 프레임워크인 Meta-Soft를 제안합니다. 구체적으로, 우리는 학습 가능한 직교 기저 행렬 (orthogonal basis matrix) $\mathcal{L}$을 가진 메타 라이브러리 (meta-library)를 구축하며, Gumbel-Softmax를 사용하는 선택 네트워크 (selector network)를 사용하여 미분 가능한 희소 결합 가중치 (differentiable sparse combination weights)를 생성함으로써, 입력 프롬프트 특징으로부터 가장 타겟팅된 $k$개의 Soft Tokens를 동적으로 합성합니다. 우리는 핵심 정보를 탐침하기 위해 이 Soft Tokens를 입력 시퀀스의 끝에 추가합니다. 또한, 제거된 토큰의 의미 정보 (semantic information)를 유지된 토큰으로 재분배하는 어텐션 흐름 (attention-flow) 기반 통합 메커니즘을 도입하며, 이를 통해 탈락된 문맥 정보를 효과적으로 보존합니다. 여러 데이터셋에 대한 실험 결과, 우리의 방법은 기존의 최첨단 (state-of-the-art) 제거 방식들을 능가하며 KV 캐시 압축을 위한 새로운 솔루션을 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Meta-Soft: 문맥 보존형 KV Cache 압축을 위한 결합 가능한 Meta-Tokens 활용

요약

핵심 포인트

댓글