기존 캐시 정책이 실패할 때: 의미론적 검색 버퍼를 위한 학습 증강 교체 방식

LLM 에이전트(LLM agents)는 과거의 경험을 저장하고 재사용하기 위해 검색 버퍼(retrieval buffers)에 점점 더 많이 의존하고 있지만, 이러한 버퍼를 관리하는 캐시 관리 정책(cache management policies)은 여전히 대체로 임시방편적(ad-hoc)입니다. 우리는 이를 전환 비용(switching costs)이 존재하는 온라인 의미론적 캐시 교체 문제(online semantic cache replacement problem)로 공식화하며, 여기서 아이템은 임베딩 유사도(embedding similarity)에 의해 매칭되고 히트 품질(hit quality)은 이진(binary)이 아닌 연속적(continuous)입니다. 8가지 교체 정책을 사용하여 MemoryBench-Full의 두 데이터셋(LoCoMo, DialSim)에 대해 실험한 결과, 우리는 놀라운 사실을 발견했습니다. 기존의 휴리스틱(heuristics)(LRU, LFU)은 시간적 지역성(temporal locality)과 빈도 집중(frequency concentration)의 부재로 인해 의미론적 워크로드(semantic workloads)에서 단순한 FIFO 베이스라인보다 지속적으로 낮은 성능을 보입니다. 우리는 후회 누적(regret accumulation)으로부터 수정 타이밍을 도출하고(약 17%의 수정률 달성), 암시적 검색 피드백(implicit retrieval feedback)에 대한 베이지안 온라인 학습(Bayesian online learning)으로부터 콘텐츠 선택을 도출하는 학습 증강 프레임워크인 SOLAR를 제안합니다. 우리는 SOLAR가 캐시 크기 및 호라이즌(horizon)과 무관하게(FIFO의 $\Omega(K)$ 대비) $\leq 3$의 상수 경쟁비(constant competitive ratio)를 달성하며, 로그 인자(logarithmic factors)를 제외하면 $\Omega(\sqrt{KT})$ 하한선에 부합하는 $O(\sqrt{KT\log T})$의 퇴거 후회(eviction regret)를 달성함을 증명합니다. 실험 결과, 제한된 캐시 크기에서 FIFO 대비 5~75%의 상대적 개선을 보여주었으며, 워킹 셋(working set) 경계에서 명확하게 특징지어지는 상전이(phase transition)를 확인했습니다. 5,000개 아이템 풀을 이용한 합성 실험(Synthetic experiments)은 풀 크기와 검색 품질 사이의 역U자형(inverted-U) 관계를 추가로 밝혀냈으며, 이는 용량 제한(capacity constraints)이 저장 용량의 한계라기보다 검색 노이즈 현상임을 정당화합니다.

Insights

기존 캐시 정책이 실패할 때: 의미론적 검색 버퍼를 위한 학습 증강 교체 방식

요약

핵심 포인트

댓글

기본 요소가 아닌 객체로서의 장면

AI의 자기 검수는 내부 식구에게 관대하다. 별도 계통 AI(codex/GPT/Gemini)에게 채점하게 하는 OSS 「loop-verify」

Vertigo Vertigo: 예측적 AI 더블을 통한 영화적 이상향의 재구성

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

AI의 자기 검수는 내부 식구에게 관대하다. 별도 계통 AI(codex/GPT/Gemini)에게 채점하게 하는 OSS 「loop-verify」

Vertigo Vertigo: 예측적 AI 더블을 통한 영화적 이상향의 재구성

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)