Memory Sidecar v3.5: AI 에이전트가 진정으로 기억하게 만드는 프로덕션급 외장 메모리 시스템
요약
AI 에이전트의 세션 간 컨텍스트 유실 문제를 해결하기 위한 외장 메모리 시스템인 Memory Sidecar v3.5를 소개합니다. Hot, Warm, Cold의 3계층 아키텍처를 통해 실시간 설정부터 대규모 지식 그래프까지 효율적으로 관리하며, RRF 방식으로 통합된 컨텍스트를 에이전트에 주입합니다.
핵심 포인트
- Hot/Warm/Cold 3계층 구조로 지연 시간과 데이터 규모 최적화
- RRF(Reciprocal Rank Fusion)를 통한 계층별 컨텍스트 통합 및 주입
- Hermes, Claude Code, Cursor 등 다양한 에이전트와 호환 가능
- Dossier 기능을 통한 핵심 인물 및 프로젝트 우선순위 관리
AI 에이전트(AI Agent)에는 치명적인 결함이 있습니다. 매번 새로운 세션이 시작될 때마다 백지 상태가 된다는 점입니다. 일주일 동안 나눈 프로젝트 배경, 코드 규격, 사용자 선호도를 이야기했더라도 터미널을 닫으면 모두 사라집니다. 이는 단순한 경험의 문제가 아니라 아키텍처(Architecture)의 결함입니다.
Memory Sidecar는 바로 이 문제를 해결하기 위해 탄생했습니다. 에이전트의 코드를 수정하거나 Docker 의존성을 도입하지 않습니다. 순수하게 외장(Plug-in) 방식으로 작동하며, 독립된 프로세스로 실행되어 데이터 디렉토리를 공유합니다. Hermes, Claude Code, Cursor, Codex 등 어떤 것을 사용하더라도 동일하게 적용됩니다.
아키텍처: 세 개의 계층, 어느 하나도 불필요하지 않음
Agent 작성 세션 → state.db + 세션 파일
↓
Sidecar 증분 읽기, 새로운 세션 처리
...
핫 레이어 (Hot Layer) — 현재 사용자 프로필 + 시스템 설정. 0ms 지연 시간, 5KB 하드 제한. "당신은 누구인가", "무엇을 하고 있는가", "하지 말아야 할 실수"와 같은 고빈도 컨텍스트(Context)를 담습니다.
웜 레이어 (Warm Layer) — Hindsight 사실 그래프 (PostgreSQL). ~50ms. 매 세션에서 핵심 사실을 자동으로 추출하고 패턴별로 클러스터링(Clustering)합니다. 실제 프로덕션 환경 데이터: 42,481개 노드, 21,629개 추출된 기억.
콜드 레이어 (Cold Layer) — gbrain 지식 그래프 + FTS5 전체 텍스트 검색. ~500ms–2s. 10,885개의 지식 그래프 페이지, 105,601개의 검색 가능한 메시지. pgvector와 결합하여 384차원 시맨틱 검색(Semantic Search)을 수행하며, 중국어 쿼리로도 영어 콘텐츠를 찾아낼 수 있습니다.
세 계층의 결과는 상호 순위 융합(Reciprocal Rank Fusion, RRF)을 통해 통합된 후 에이전트의 시스템 프롬프트(System Prompt)에 주입됩니다. "한 계층을 선택하는 것"이 아니라, "어느 계층에 데이터가 있든 사용하며, 모두 있다면 병합하여 순위를 매기는" 방식입니다.
Hermes 전용이 아닙니다
AGENT_HOME 환경 변수가 가리키는 곳이라면 어디든 Sidecar가 서비스를 제공합니다. v3.5의 설치 프로그램은 중-영 이중 언어 상호작용을 지원하며, --noninteractive 모드는 CI 배치 배포에 적합합니다.
git clone https://github.com/mage0535/hermes-memory-installer.git
cd hermes-memory-installer
export AGENT_HOME="$HOME/.claude"
...
설치 후 한 번의 검증을 실행하세요:
# sidecar_acceptance_check.py — 프로덕션 검증 스위트 (실제 스크립트 발췌)
def run_all_checks():
checks = [
...
Focused Dossier: 모든 기억이 평등한 것은 아니다
v3.1에서 도입된 기능은 v3.5에서 이미 프로덕션 검증을 마쳤습니다. 핵심 인물, 장기 프로젝트, 반복되는 장애와 같은 특정 요소들은 특별한 대우가 필요합니다. Dossier는 별칭 해석, 키워드 트리거, 보존 우선순위 및 타임라인 추적 기능을 자체적으로 갖추고 있습니다. 첫 번째로 투입된 dossier는 수백 개의 세션, 수천 개의 추출된 사실, 타임라인 인지 리콜(Recall)을 관리하고 있습니다.
새로운 dossier를 추가하려면 memory_family_registry.py에 자기 설명적(Self-explanatory) 형식으로 설정 한 줄만 추가하면 됩니다.
불필요한 중간 계층 제거
v3.0에는 4개의 계층이 있었고, 중간에 agentmemory Docker 브릿지 계층이 있었습니다. 실제 데이터는 만료된 기록 13개뿐이었고, Docker 의존성만 늘어났습니다. v3.1에서 이를 과감히 삭제했으며, 동시에 미완성된 memory_index.db도 정리했습니다.
v3.5에서는 이를 바탕으로 더욱 완벽한 임베딩(Embedding) 모델 선택 기능을 추가했습니다. 96MB(순수 중국어 경량형)부터 2GB(극한의 정밀도)까지 6개의 모델을 지원하며, 임베딩 서비스 없이도 FTS5 텍스트 검색만으로 충분히 활용 가능합니다.
프로덕션 데이터 (허황된 수치가 아닙니다)
v3.5 출시 기준, 이 스택은 특정 프로덕션 배포 환경에서 지속적으로 실행되고 있습니다:
- 10,885개의 gbrain 페이지
- 42,481개의 Hindsight 노드
- 105,601개의 검색 가능한 메시지
- brain score 73 (gbrain 콘텐츠 품질 점수)
이것은 프로토타입(Prototype)이 아닙니다. 지난 4월부터 프로덕션 라인에서 구동되고 있는 결과물입니다.
누구에게 적합한가
다음과 같은 경우라면:
- 매일 AI 에이전트와 50회 이상 상호작용한다
- 반복해서 동일한 컨텍스트를 설명하는 것에 지쳤다
- Hermes, Claude Code 또는 Codex를 사용하여 본격적인 프로젝트를 수행한다
- 에이전트의 핵심 코드를 수정하고 싶지 않고, Docker를 사용하고 싶지도 않다
그렇다면 Memory Sidecar를 설치하는 데 10분을 투자할 가치가 있습니다. 프로젝트는 github.com/mage0535/hermes-memory-installer에서 확인할 수 있으며, MIT 라이선스 하에 중-영 이중 언어 문서를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기