arXiv논문2026. 05. 14. 05:17

KV-Fold: 긴 문맥 추론 (Long-Context Inference)을 위한 단일 단계 KV-Cache 재귀 (Recurrence)

요약

KV-Fold는 키-값(KV) 캐시를 누산기(accumulator)로 활용하여 별도의 학습 과정 없이 긴 문맥 추론을 수행하는 프로토콜입니다. 이 방식은 함수형 프로그래밍의 foldl과 유사하게, 이전 청크에서 전달된 KV 캐시를 조건으로 다음 청크를 처리하며 내부 상태를 재사용합니다. KV-Fold는 16K부터 128K 토큰에 이르는 긴 문맥에서도 높은 정확도를 유지하며, 단일 GPU 메모리 제약 내에서 안정적으로 작동하는 것이 특징입니다.

핵심 포인트

KV-Fold는 별도의 학습 없이(training-free) KV 캐시를 재귀적 누산기로 활용하여 긴 문맥 추론을 가능하게 합니다.
이 프로토콜은 이전 청크의 KV 캐시를 접두사로 사용하여 모델 수정이나 재학습 없이 내부 상태를 효과적으로 재사용합니다.
KV-Fold는 16K~128K 토큰, 최대 511 체인 깊이에서도 높은 정확도를 유지하며 안정적입니다.
메모리 제한적인 스트리밍 방식과 달리, KV-Fold는 장거리 검색 능력을 유지하면서도 다루기 쉬운 순방향 패스(forward passes)로 작동합니다.

우리는 키-값 (KV) 캐시를 시퀀스 청크 (sequence chunks)에 대한 왼쪽 폴드 (left fold)의 누산기 (accumulator)로 취급하는 단순하고 별도의 학습이 필요 없는 (training-free) 긴 문맥 추론 (long-context inference) 프로토콜인 KV-Fold를 소개합니다. 각 단계에서 모델은 누적된 캐시를 조건으로 다음 청크를 처리하고, 새로 생성된 키와 값을 추가하며, 확장된 캐시를 앞으로 전달합니다. 이는 함수형 프로그래밍 (functional programming)의 foldl과 유사하게 동일한 단일 단계 업데이트가 반복적으로 적용됩니다. 잠재적 다중 에이전트 통신 (latent multi-agent communication)을 위해 도입된 KV 캐시 연결 (KV cache concatenation) 프리미티브 (primitive)를 기반으로, 우리는 이를 긴 문맥 추론을 위한 청크 간 재귀 (chunk-to-chunk recurrence)로 재용도화합니다. 청크 $t$를 처리할 때, 모델은 이전 청크로부터 전달된 KV 캐시를 접두사 (prefix)로 어텐션 (attend)하며, 모델을 수정하거나 재학습시키지 않고도 세그먼트 전반에 걸쳐 내부 상태를 재사용합니다. 그 단순함에도 불구하고, 유도된 재귀는 안정적입니다. 단계별 드리프트 (drift)는 잠시 상승한 후 평탄한 고원 (plateau) 상태로 포화되며, 이는 깊은 체인 (chains) 전반에 걸쳐 지속됩니다. 이 고원은 수치 정밀도 (numerical precision)의 10,000배 변화에도 민감하지 않으며, 청크 크기에 관계없이 견고하고, 모델 제품군 전반에 걸쳐 일관적입니다. 작업 수준에서 KV-Fold는 긴 거리에서도 정확한 정보를 보존합니다. Needle-in-a-haystack 벤치마크에서, KV-Fold는 Llama-3.1-8B 모델을 사용하여 16K에서 128K 토큰에 이르는 문맥과 최대 511의 체인 깊이를 아우르는 152회의 실험 전체에서 100% 정확 일치 (exact-match) 검색을 달성하는 동시에, 단일 40GB GPU의 메모리 제한 내에서 작동합니다. 제한된 메모리를 위해 충실도 (fidelity)를 희생하는 스트리밍 (streaming) 방식과 비교했을 때, KV-Fold는 다루기 쉬운 순방향 패스 (forward passes)의 연속으로 작동하면서도 장거리 검색 능력을 유지합니다. 종합적으로, 우리의 결과는 동결된 사전 학습된 트랜스포머 (frozen pretrained transformers)가 이미 안정적인 형태의 KV-캐시 재귀를 지원함을 보여주며, 아키텍처 변경이나 학습 없이도 긴 문맥 추론을 위한 실질적인 경로를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

KV-Fold: 긴 문맥 추론 (Long-Context Inference)을 위한 단일 단계 KV-Cache 재귀 (Recurrence)

요약

핵심 포인트

댓글