압축 후에도 유지되는 Claude Code용 MCP 메모리 레이어 구축 — 공개 SWE-bench 벤치마크에서 +10.2 pts의 페어링
요약
Claude Code에 지속적인 메모리를 제공하는 오픈소스 MCP 서버인 world-model-mcp를 소개합니다. 시계열 지식 그래프를 활용해 세션 간 정보를 유지하며, SWE-bench 벤치마크에서 성능 향상을 입증했습니다.
핵심 포인트
- Claude Code의 라이프사이클 이벤트와 연동되는 MCP 서버 구축
- 시계열 지식 그래프를 통한 사실(facts) 저장 및 감쇠 적용
- SWE-bench Verified 벤치마크에서 결합 페어링 결과 +10.2 pts 달성
- 압축(compaction) 후에도 신뢰도 기반 정보를 재주입하여 에이전트 성능 유지
내가 구축한 것: Claude Code에 지속적인 메모리(persistent memory)를 제공하는 OSS MCP 서버(MIT 라이선스, 자유롭게 사용 가능)인 world-model-mcp입니다. 이 서버는 Claude Code의 라이프사이클 이벤트(SessionStart, PreCompact, PostCompact, ToolResult 등)에 연결되어 출처 메타데이터(provenance metadata)와 함께 사실(facts)을 캡처합니다. 캡처된 정보는 증거 유형별 감쇠(decay)가 적용되는 시계열 지식 그래프(temporal knowledge graph)에 저장됩니다. 압축(compaction) 이후에는 신뢰도 가중치가 적용된 사실들을 재주입하여, 에이전트가 여러 세션에 걸쳐 동일한 실패를 반복하지 않도록 합니다.
Claude가 구축을 어떻게 도왔는가: 나는 전체 과정에서 Claude Code와 페어링(pairing)하며 world-model-mcp를 구축했습니다. Claude Code는 Python 구현의 상당 부분, 테스트 스위트(375개의 통과된 테스트), 벤치마크 하네스(benchmark harness), 실패 분류 프롬프트(failure classifier prompts), 그리고 제약 조건 추출 프롬프트(constraint extraction prompts)를 작성했습니다. 사전 등록된 방법론 문서(DESIGN.md)는 Claude와 함께 초안을 작성했습니다. 각 단계의 검토 및 편집은 내가 수행했으며, 아키텍처 결정, 스키마 설계 및 방법론적 판단은 나의 몫이었습니다.
v0.9 릴리스: v0.9.1은 첫 번째 공개 벤치마크 결과를 포함합니다. 벤치마크 실행 일주일 전에 DESIGN.md에 방법론을 사전 등록했으므로, 결과가 목표를 임의로 변경했다는(goalpost-moving) 비판을 받을 수 없습니다.
49개의 페어링된 SWE-bench Verified 인스턴스에 대한 결과:
- 도메인 내(Within-domain) (django + sympy): 15/20 → 18/20, +15.0 pts
- 교차 도메인(Cross-domain) (matplotlib + scikit-learn + sphinx) (완전히 다른 리포지토리 제품군으로부터의 제약 조건 포함): 18/29 → 20/29, +6.9 pts, 18개의 베이스라인 통과 사례에서 회귀(regression) 0건
- 결합된 페어링(Combined paired): 33/49 → 38/49, +10.2 pts
솔직한 한계점은 RESULTS.md에 그대로 명시되어 있습니다: 단일 시행 설계(single-trial design), 도메인 내 사례에서의 제약 조건-실패 중첩, 교차 도메인 n=11의 작은 표본 크기, 회귀 0건의 교차 도메인 결과가 재현에 실패할 가능성이 가장 높다는 점, Claude-as-judge의 자기 참조(self-reference) 위험, 그리고 상위 SWE-bench pip 플래그로 인해 탈락한 인스턴스 1건이 있습니다.
설치: pip install world-model-mcp==0.9.1
설치 후 Claude Code에 추가: claude mcp add world-model-mcp
**Repo + RESULTS.md: https://github.com/SaravananJaichandar/world-model-mcp
방법론, 특히 교차 도메인 전이 (cross-domain transfer) 주장에 대한 피드백을 환영합니다.
제출자: /u/Funky_Chicken_22
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/ClaudeAI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기