arXiv논문2026. 06. 26. 11:40

검색 메모리의 시간적 유효성: 진화하는 지식에 대응하는 AI 에이전트의 오래된 사실 오류 제거

요약

RAG 시스템이 시간이 지남에 따라 변화하는 지식(API 변경 등)을 처리할 때 발생하는 '오래된 사실 오류' 문제를 해결하기 위한 MemStrata를 제안합니다. MemStrata는 이중 시간 원장 방식을 통해 LLM 호출 없이도 모순된 정보를 효과적으로 제거하며, 진화하는 지식 환경에서 RAG보다 월등한 정확도를 보여줍니다.

핵심 포인트

RAG는 임베딩 유사도 문제로 인해 구식 정보와 최신 정보를 구분하지 못하는 구조적 한계가 있음
MemStrata는 결정론적 대체 규칙을 사용하여 오래된 값을 효율적으로 퇴출함
진화하는 지식 벤치마크에서 RAG 대비 압도적인 정확도(0.95-1.00)를 달성함
LLM 재순위화 방식보다 훨씬 빠른 약 2.1초의 낮은 지연 시간을 기록함

검색 증강 생성 (RAG)은 에이전트에게 축적된 지식에 대한 접근 권한을 부여하지만, 시간에 대한 모델은 갖추고 있지 않습니다. 사실이 변경될 때 (예: 함수 이름이 변경되거나 API 구조가 재편성될 때), RAG는 오래된 값과 현재 값을 거의 동일한 임베딩 유사도 (embedding similarity)로 검색합니다. 그러면 에이전트는 답변을 포기하거나 이미 대체된 사실을 제공하게 됩니다. 우리는 이것이 구조적인 문제임을 보여줍니다. 보정된 데이터셋에서 코사인 유사도 (cosine similarity)는 모순된 사실과 중복된 사실을 AUROC 0.59 (무작위 수준에 근접)로 구분하는데, 이는 모순된 내용이 재표현된 중복 내용보다 원본과 임베딩 유사도가 더 높은 경우가 많기 때문입니다. 우리는 시간적 유효성을 유지하는 검색 메모리인 MemStrata를 제시합니다. MemStrata는 RAG처럼 사실을 저장하여 정적 회상 (static recall) 능력을 보존하지만, 사실의 값이 모순될 경우 결정론적인 (주체, 관계, 객체) 대체 규칙을 통해 이중 시간 원장 (bi-temporal ledger)에서 오래된 값을 퇴출합니다. 이 과정에는 유사도 임계값이나 LLM 호출이 필요하지 않습니다. 7B 모델로 로컬에서 실행한 6개의 벤치마크 전반에 걸쳐, MemStrata는 정적 지식에서는 RAG와 대등한 성능을 보였으며, 진화하는 지식(RAG가 0.20-0.47에 머무는 영역)에서는 0.95-1.00의 정확도에 도달했습니다. 핵심 결과는 오래된 사실 오류 (stale-fact-error) 비율입니다. 답변이 요구될 때 RAG는 15-40%의 확률로 대체된 값을 제공하는 반면, MemStrata는 이를 ~0%로 낮추며 RAG가 피할 수 없는 실패 유형을 해결합니다. MemStrata는 LLM 재순위화 (LLM-reranking) 베이스라인의 ~16-18초와 비교하여 검색 지연 시간 (~2.1s) 내에 이를 달성합니다. 우리는 지식 진화 하에서의 메모리에 대한 하네스 (harness), 데이터셋, 그리고 마커가 없는 평가 프로토콜을 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

검색 메모리의 시간적 유효성: 진화하는 지식에 대응하는 AI 에이전트의 오래된 사실 오류 제거

요약

핵심 포인트

댓글