arXiv논문2026. 05. 29. 10:51

Entity-Collision: 에이전트 메모리에서의 검색 성능 향상 기여도를 측정하기 위한 계층화된 프로토콜

요약

에이전트 메모리 벤치마크의 어휘적 누출과 태그 혼합 문제를 해결하기 위한 새로운 프로토콜인 'Entity-Collision'을 제안합니다. 이 프로토콜은 BM25의 성능을 고정하여 임베더의 순수 기여도를 계층적으로 측정하며, 다양한 임베더 모델의 성능 패턴을 분석합니다.

핵심 포인트

어휘적 누출과 태그 혼합을 구분하는 계층화된 프로토콜 제안
BM25 하한선을 고정하여 임베더의 순수 성능 향상분 입증
MiniLM-384와 BGE-large 등 모델별 쿼리 유형에 따른 성능 차이 규명
결정론적 제어를 통해 바이트 단위로 재현 가능한 테스트베드 구축

엔드투엔드 (End-to-end) 에이전트 메모리 벤치마크는 리트리버 (retriever)당 단일 hit@k를 보고하며, 이 과정에서 어휘적 누출 (lexical leakage, 통제되지 않은 쿼리/정답/방해 요소 간의 엔티티 중복)과 태그 혼합 (tag-mixing, 선호도, 서비스, 도구 등이 함께 평균화됨)을 혼동하고 있습니다. 우리는 BM25의 하한선을 구조적으로 고정하는 시스템 불가지론적 (system-agnostic) 프로토콜인 entity-collision을 제안합니다. 이 프로토콜은 모든 방해 요소 (distractor)가 정답의 엔티티 토큰을 공유하도록 설계되었으며, 판별자 태그 (discriminator tag)에 따라 쿼리를 계층화하여 BM25 대비 발생하는 모든 성능 향상 (lift)이 임베더 (embedder)에 기인함을 입증합니다. 5개 태그 x 3개 임베더 x 5개 충돌 정도 (collision degrees)를 갖는 오픈 소스 에이전트 메모리 테스트베드에 적용하고 쌍체 부트스트랩 (paired-bootstrap) 95% 신뢰 구간 (CI)을 산출한 결과, 이 프로토콜은 두 축의 패턴을 드러냅니다: 256-d 해시 트리그램 (hash trigram)은 심층 충돌 상황의 폐쇄형 어휘 (closed-vocabulary) 어휘 태그에서만 도움이 됩니다; MiniLM-384는 두 축 모두에서 우세합니다; 그리고 파라미터 수가 2.7배 더 많은 BGE-large가 MiniLM을 일관되게 능가하지는 않습니다 — BGE-large는 의도 스타일 (intent-style) 쿼리에서는 승리하지만, 어휘적 (lexical) 쿼리에서는 패배합니다. 인코더 용량 (Encoder capacity) 자체가 유일한 제약 요인은 아닙니다. 합성된 의도 태그 (intent-tag) null 결과는 LongMemEval (n=500)에서 단일 세션 선호도 재현율 절벽 (single-session-preference recall cliff)으로 재현됩니다. LoCoMo에서의 적응형 벡터 가중치 라우팅 (Adaptive vector-weight routing)은 측정된 null입니다: 11.7pp의 오라클 헤드룸 (oracle headroom)이 존재하지만, 우리가 테스트한 어떤 신호도 이를 회복하지 못했습니다. 26개의 모든 결과 테이블과 37개의 재현 스크립트는 버전 관리되며 공개 레지스트리에 의해 검증되었습니다; 이 프로토콜은 결정론적으로 제어되는 메모리 테스트베드 (이벤트 소싱된 결정 로그, DAG-상태 머신 스키마 라이프사이클)에서 실행되므로, 보고된 모든 CI는 인제스트 스트림 (ingest stream)으로부터 바이트 단위로 동일하게 재현 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Entity-Collision: 에이전트 메모리에서의 검색 성능 향상 기여도를 측정하기 위한 계층화된 프로토콜

요약

핵심 포인트

댓글