Kamera: 훈련이 필요 없는 재사용을 위한 통합 위치 불변 멀티모달 KV 캐시
요약
멀티모달 에이전트의 반복적인 추론 과정에서 발생하는 KV 캐시 재계산 문제를 해결하기 위한 Kamera 기술을 소개합니다. 훈련 없이도 위치 불변성을 유지하며 청크 간 조건화 손실을 복구하는 저차원 패치 방식을 제안합니다.
핵심 포인트
- 기존 접두사 캐시의 위치 고정 문제를 해결하여 재인코딩 비용 절감
- 저차원 조건화 패치를 통해 멀티 홉 추론 정확도 저하 방지
- MLA, GQA, MHA 등 다양한 어텐션 구조에 적용 가능한 범용성
- SGLang 커널에서 재인코딩 없이 KV 캐시를 효율적으로 재구성
멀티모달 에이전트(Multimodal agents)는 컨텍스트 윈도우(context window)가 슬라이딩하고 추론이 반복됨에 따라 동일한 비디오 프레임, UI 스크린샷, 렌더링된 결과물을 반복적으로 재검토하지만, 접두사 캐시(prefix caches)가 고정된 선두 위치에서만 재사용을 지원하기 때문에 매번 처음부터 다시 인코딩(re-encode)해야 합니다. 우리는 이러한 재계산(recompute)을 피할 수 있음을 보여주며, 단순한 KV 재사용이 정확히 무엇을 잃는지 식별합니다: 바로 하나의 청크(chunk)가 인접 청크로부터 흡수하는 청크 간 조건화(cross-chunk conditioning)입니다. 이러한 손실은 비대칭적입니다. 캐시된 청크의 직접적인 판독(readout)은 표준 상태 병합(state-merge)을 통해 정확하고 비용 없이 복구됩니다. 남는 것은 깊은 레이어(deep layers)에 집중된 확산된 저차원 잔차(low-rank residue)로, 단일 홉(single-hop) 검색에는 보이지 않지만 멀티 홉(multi-hop) 추론이 결합하는 바로 그 요소입니다. 따라서 맹목적인 재사용은 단일 홉 회상(recall)은 유지하지만 멀티 홉 정확도를 절반으로 떨어뜨립니다. 이는 단일 컨텍스트 또는 단일 이미지 재사용을 위해 설계된 기존의 위치 독립적 캐시(position-independent caches)가 해결하지 못하는 실패 모드입니다. 우리는 각 위치 불변 청크와 함께 저장되는 작은, 훈련이 필요 없는 저차원 조건화 패치(low-rank conditioning patch)로 이를 복구합니다. 재사용은 MLA, GQA, MHA 전반에 걸쳐 하나의 연산으로 축소됩니다: 임의의 대상 위치로의 정확한 RoPE 재회전(re-rotation), 그리고 청크 간 결합을 복원하는 패치입니다. 이를 통해 세 가지 윈도우 연산을 저렴하게 수행할 수 있습니다: 재정렬(하나의 패치가 캐시된 세트의 모든 순서에 대응), 슬라이딩 윈도우 생존(생존한 청크는 회전을 통해서만 위치를 이동하며, 재인코딩 없음), 그리고 회상(쫓겨난 청크는 패치를 통해 재수화(rehydrated)되며, 절대 재인코딩되지 않음). 랭크-m(rank-m) 패치는 KV 점유율의 극히 일부만 사용하면서도 두 가지 어텐션(attention) 패밀리와 2페이지 문서 QA에 걸친 MM-NIAH를 포함한 청크 간 결합 벤치마크에서 전체 작업 정확도를 복구하며, 6개의 백본(backbones)을 사용하는 프로덕션 SGLang 커널에서 bf16 반올림 오차 범위 내로 재-프리필(re-prefill) KV를 재구성합니다. 조건화 신호는 중복되는 비전 및 비디오 스트림에서 가장 강력하며, 이는 우리의 솔루션이 멀티모달 에이전트가 재계산 예산을 가장 많이 소비하는 곳에서 가장 큰 영향력을 발휘하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기