GateMem: 다중 주체 공유 메모리 에이전트의 메모리 거버넌스 벤치마킹
요약
다중 주체 공유 메모리 환경을 위한 새로운 벤치마크인 GateMem을 소개합니다. 이 연구는 에이전트의 메모리 유용성, 권한 기반 액세스 제어, 그리고 능동적 망각 능력을 의료, 사무 등 다양한 도메인에서 평가합니다.
핵심 포인트
- 다중 주체 공유 메모리 에이전트를 위한 GateMem 벤치마크 제안
- 메모리 유용성, 액세스 제어, 능동적 망각의 통합적 평가
- 현재 모델들은 비용 효율성과 보안 거버넌스 사이의 트레이드오프 존재
- 기존 검색 기반 방식은 권한 없는 정보 유출 문제 해결에 한계
LLM 에이전트를 위한 메모리 벤치마크는 주로 단일 사용자 설정을 가정하며, 병원, 직장, 캠퍼스 및 가정을 위한 공유 어시스턴트에 대한 연구는 미비한 상태입니다. 이러한 배포 환경에서는 여러 주체(principals)가 공통 메모리 풀(common memory pool)에 기록하고 서로 다른 역할, 범위 및 관계에 따라 이를 조회하므로, 메모리 품질에는 회상(recall)뿐만 아니라 거버넌스(governance)도 필요합니다. 우리는 다중 주체 공유 메모리 에이전트를 위한 벤치마크인 GateMem을 소개합니다. GateMem은 상태 업데이트를 포함한 정당한 장기 요청(long-horizon requests)에 대한 유용성(utility), 문맥적 권한 부여 경계(contextual authorization boundaries)를 가로지르는 액세스 제어(access control), 그리고 명시적인 삭제 요청 이후 에이전트 측면의 능동적 망각(active forgetting)을 공동으로 평가합니다. 이는 의료, 사무, 교육 및 가정 도메인을 아우르며, 긴 형식의 다자간 에피소드, 점진적 메모리 주입(incremental memory injection), 숨겨진 체크포인트(hidden checkpoints), 구조화된 판정(structured judging) 및 유출 대상 주석(leak-target annotations)을 포함합니다. 다양한 베이스라인(baselines)과 백본 모델(backbone models)에 걸쳐, 강력한 유용성, 견고한 액세스 제어 및 신뢰할 수 있는 망각을 동시에 달성하는 방법은 없었습니다. 긴 문맥 프롬프팅(Long-context prompting)은 높은 토큰 비용으로 가장 좋은 거버넌스 점수를 내는 경우가 많지만, 검색 기반(retrieval-based) 및 외부 메모리(external-memory) 방식은 비용은 줄여주나 여전히 권한이 없거나 삭제된 정보가 유출됩니다. 이러한 결과는 현재의 메모리 에이전트가 신뢰할 수 있는 공유 기관 배포(shared institutional deployment) 단계와는 아직 거리가 멀다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기