Nous: 장기 에이전트 메모리를 위한 예측적 세계 모델 (Predictive World Model)
요약
Nous는 지식을 저장하는 대신 예측적 세계 모델을 통해 유지하는 새로운 에이전트 메모리 아키텍처입니다. 베이지안 사후 확률 업데이트를 통해 엔티티의 속성을 관리하며, 외부 데이터베이스 없이도 장기 대화 메모리 벤치마크에서 우수한 성능을 입증했습니다.
핵심 포인트
- 예측적 세계 모델 기반의 범주형 확률 분포 메모리 구조
- 베이지안 사후 확률을 이용한 정보 업데이트 및 엔트로피 기반 망각 메커니즘
- 외부 벡터 DB나 그래프 엔진 없이 독립적 메모리 운영 가능
- LoCoMo 벤치마크에서 기존 A-MEM 및 BeliefMem 대비 우수한 성능 달성
우리는 지식은 저장이 아니라 예측이라는 원칙에 기반한 새로운 에이전트 메모리 아키텍처인 Nous를 선보입니다. Nous는 사실을 데이터베이스 레코드, 벡터 임베딩 (vector embeddings), 또는 지식 그래프 (knowledge-graph) 트리플로 유지하는 대신, 예측적 세계 모델 (predictive world model)을 유지합니다. 이는 대화에서 관찰된 각 엔티티-속성 쌍(entity-attribute pair)마다 하나씩 존재하는 '차원 (dimensions)'이라 불리는 범주형 확률 분포 (categorical probability distributions)의 집합입니다. 유입되는 각 관찰값은 정보 이론적 놀라움 (information-theoretic surprise) $S = -\log_2 P(\text{obs} \mid D)$에 의해 점수가 매겨지며, 분포는 폐쇄형 베이지안 사후 확률 (closed-form Bayesian posterior)을 통해 업데이트됩니다. 주요 저장물은 사실 그 자체가 아니라, 사전 믿음(prior belief)에서 사후 믿음(posterior belief)으로의 변화 기록인 델타 (delta)입니다. 망각은 균등 분포 (uniform distribution)를 향한 엔트로피 감소 (entropy decay)로서 자연스럽게 나타나며, 정체성 해소 (identity resolution)는 엔티티 차원 집합 간의 상호 정보량 (mutual information)을 통해 처리됩니다. GPT-4o-mini를 백본 (backbone)으로 사용하여 10개의 대화(1,540개 질문)에 걸친 LoCoMo 장기 대화 메모리 벤치마크에서 평가했을 때, Nous는 F1 점수 63.50 (single-hop), 55.32 (multi-hop), 58.57 (temporal), 62.50 (open-domain)을 달성했습니다. A-MEM이 자체 보고한 GPT-4o-mini 수치와 비교했을 때, Nous는 4개 카테고리 중 3개에서 상당한 이득을 보여주었습니다. 다만, A-MEM 결과에 대한 독립적인 인용들이 카테고리 할당에 대해 서로 일치하지 않는다는 점을 인지하고 있으며, 이는 우리가 일방적으로 해결하기보다 공개적으로 논의하는 재현성 (reproducibility) 문제입니다. 또한 우리는 결정론적 메모리 (deterministic memory)가 아닌 믿음 기반 (belief-based) 메모리라는 동일한 핵심 전제 위에 구축되어 동시에 개발된 시스템인 BeliefMem과 비교했습니다. 동일한 벤치마크와 백본에서 Nous의 자체 보고 수치는 4개 카테고리 모두에서 BeliefMem의 자체 보고 수치를 상회하지만, 두 평가 파이프라인 사이에 몇 가지 통제되지 않은 차이점이 있어 이를 완전히 통제된 비교라고 하기에는 무리가 있음을 밝힙니다. Nous는 외부 벡터 데이터베이스 (vector database)나 그래프 엔진 (graph engine)을 필요로 하지 않습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기