본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 29. 10:51

Entity-Collision: 에이전트 메모리에서의 검색 성능 향상 기여도를 측정하기 위한 계층화된 프로토콜

요약

에이전트 메모리 벤치마크의 어휘적 누출과 태그 혼합 문제를 해결하기 위한 새로운 프로토콜인 'Entity-Collision'을 제안합니다. 이 프로토콜은 BM25의 성능을 고정하여 임베더의 순수 기여도를 계층적으로 측정하며, 다양한 임베더 모델의 성능 패턴을 분석합니다.

핵심 포인트

  • 어휘적 누출과 태그 혼합을 구분하는 계층화된 프로토콜 제안
  • BM25 하한선을 고정하여 임베더의 순수 성능 향상분 입증
  • MiniLM-384와 BGE-large 등 모델별 쿼리 유형에 따른 성능 차이 규명
  • 결정론적 제어를 통해 바이트 단위로 재현 가능한 테스트베드 구축

엔드투엔드 (End-to-end) 에이전트 메모리 벤치마크는 리트리버 (retriever)당 단일 hit@k를 보고하며, 이 과정에서 어휘적 누출 (lexical leakage, 통제되지 않은 쿼리/정답/방해 요소 간의 엔티티 중복)과 태그 혼합 (tag-mixing, 선호도, 서비스, 도구 등이 함께 평균화됨)을 혼동하고 있습니다. 우리는 BM25의 하한선을 구조적으로 고정하는 시스템 불가지론적 (system-agnostic) 프로토콜인 entity-collision을 제안합니다. 이 프로토콜은 모든 방해 요소 (distractor)가 정답의 엔티티 토큰을 공유하도록 설계되었으며, 판별자 태그 (discriminator tag)에 따라 쿼리를 계층화하여 BM25 대비 발생하는 모든 성능 향상 (lift)이 임베더 (embedder)에 기인함을 입증합니다. 5개 태그 x 3개 임베더 x 5개 충돌 정도 (collision degrees)를 갖는 오픈 소스 에이전트 메모리 테스트베드에 적용하고 쌍체 부트스트랩 (paired-bootstrap) 95% 신뢰 구간 (CI)을 산출한 결과, 이 프로토콜은 두 축의 패턴을 드러냅니다: 256-d 해시 트리그램 (hash trigram)은 심층 충돌 상황의 폐쇄형 어휘 (closed-vocabulary) 어휘 태그에서만 도움이 됩니다; MiniLM-384는 두 축 모두에서 우세합니다; 그리고 파라미터 수가 2.7배 더 많은 BGE-large가 MiniLM을 일관되게 능가하지는 않습니다 — BGE-large는 의도 스타일 (intent-style) 쿼리에서는 승리하지만, 어휘적 (lexical) 쿼리에서는 패배합니다. 인코더 용량 (Encoder capacity) 자체가 유일한 제약 요인은 아닙니다. 합성된 의도 태그 (intent-tag) null 결과는 LongMemEval (n=500)에서 단일 세션 선호도 재현율 절벽 (single-session-preference recall cliff)으로 재현됩니다. LoCoMo에서의 적응형 벡터 가중치 라우팅 (Adaptive vector-weight routing)은 측정된 null입니다: 11.7pp의 오라클 헤드룸 (oracle headroom)이 존재하지만, 우리가 테스트한 어떤 신호도 이를 회복하지 못했습니다. 26개의 모든 결과 테이블과 37개의 재현 스크립트는 버전 관리되며 공개 레지스트리에 의해 검증되었습니다; 이 프로토콜은 결정론적으로 제어되는 메모리 테스트베드 (이벤트 소싱된 결정 로그, DAG-상태 머신 스키마 라이프사이클)에서 실행되므로, 보고된 모든 CI는 인제스트 스트림 (ingest stream)으로부터 바이트 단위로 동일하게 재현 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0