본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 25. 13:36

World Model MCP: SWE-bench 반복 실수를 10.2점 감소시킨 메모리 레이어

요약

World Model MCP는 Claude Code에 장기 기억을 부여하는 MCP 서버로, 시계열 지식 그래프를 통해 코딩 세션의 경험을 학습합니다. 이를 통해 SWE-bench Verified 성능을 10.2점 향상시키며 반복되는 실수를 방지합니다.

핵심 포인트

  • 시계열 지식 그래프를 통한 장기 기억(Long-term memory) 제공
  • SWE-bench Verified에서 반복 실수 10.2점 감소 달성
  • 컨텍스트 압축 후에도 핵심 제약 조건 및 사실 재주입 가능
  • Claude Code, Cursor, pi 등 다양한 도구와 호환

World Model MCP는 수정 사항으로부터 학습하고, 반복되는 실수를 방지하며, 압축(compaction) 후에도 컨텍스트를 재주입하는 시계열 지식 그래프(temporal knowledge graph)를 Claude Code에 추가합니다. 이는 SWE-bench에서 +10.2점의 성능 향상으로 입증되었습니다.

변경 사항

World Model MCP (v0.9.1)는 Claude Code에 장기 기억(long-term memory)을 부여하는 새로운 MCP 서버입니다. 이는 모든 코딩 세션으로부터 학습하는 코드베이스의 시계열 지식 그래프(temporal knowledge graph)를 생성합니다. 핵심 주장은 SWE-bench Verified에서 반복되는 실수를 10.2점 감소시켰다는 것입니다.

이 리포지토리(repo)는 26개의 MCP 도구, 19개의 CLI 하위 명령(subcommands), 그리고 375개의 테스트를 제공합니다. 이는 하네스 중립적(harness-neutral)입니다. 즉, Claude Code, Cursor, 그리고 pi와 함께 작동합니다.

기능

World Model MCP는 다음과 같은 역할을 수행하는 지속적인 메모리 레이어(persistent memory layer)로 작동합니다:

  1. 환각(Hallucinations) 방지 — 사용 전 알려진 엔티티(entities)를 기준으로 API/함수 참조를 검증합니다.
  2. 반복되는 실수 방지 — 수정 사항으로부터 제약 조건(constraints)을 학습하고, 이를 향후 세션에 적용합니다.
  3. 회귀(Regressions) 감소 — 버그 수정을 추적하고, 변경 사항이 중요한 영역을 건드릴 때 경고를 보냅니다.
  4. 압축(Compaction) 생존 — 에이전트의 컨텍스트 창(context window)이 초기화된 후에도 최상위 제약 조건과 최근 사실을 재주입합니다.
  5. 모순 해결 — 신뢰도, 최신성 또는 소스 개수를 사용하여 충돌하는 사실 사이에서 승자를 선택합니다.

압축 생존(compaction survival) 기능은 매우 중요합니다. 모든 Claude Code 사용자는 작업 도중 컨텍스트 창이 초기화되는 고통을 알고 있습니다. World Model MCP는 압축 후 가장 중요한 제약 조건과 최근 사실을 자동으로 재주입합니다.

벤치마크

핵심적인 입증 방식은 SWE-bench Verified에서의 반복 실수 벤치마크입니다. django, sympy, matplotlib, scikit-learn, 그리고 sphinx에 걸친 50개의 태스크가 베이스라인 대 처치(baseline-vs-treatment) 쌍 비교로 실행되었습니다. 결과는 다음과 같습니다:

world-model-mcp MCP server

  • 49개 인스턴스 전반에 걸쳐 +10.2 pts paired delta 달성
  • +15.0 pts within-domain (도메인 내 성능 향상)
  • +6.9 pts cross-domain (도메인 간 성능 향상)
  • 도메인 외 (out-of-domain) 작업에서 Zero regressions (성능 저하 없음)

각 작업별 전체 테이블과 메커니즘 분석(mechanistic analysis)은 benchmarks/repeat-mistake/RESULTS.md에서 확인할 수 있습니다.

설치 및 사용 방법

설치 (Installation)

# 리포지토리 클론
git clone https://github.com/SaravananJaichandar/world-model-mcp
cd world-model-mcp
...

Claude Code 설정

Claude Code MCP 설정에 다음을 추가하세요:

{
  "mcpServers": {
    "world-model": {
...

주요 명령어 (Key Commands)

  • /world-model status — 현재 지식 그래프 (knowledge graph) 상태 확인
  • /world-model constraints — 학습된 제약 조건 (constraints) 목록 표시
  • /world-model compact — 수동 압축 (compaction) 트리거
  • status-watch — 실시간 모니터링을 위한 TUI 위젯

사용 시점

World Model MCP는 다음과 같은 상황에서 빛을 발합니다:

  • Claude Code가 동일한 버그를 반복해서 유발하는 대규모 코드베이스 (Large codebases)
  • 컨텍스트 제한 (context limits)에 여러 번 걸리는 장기 실행 작업 (Long-running tasks)
  • 여러 개발자가 동일한 리포지토리에서 Claude Code를 사용하는 팀 프로젝트 (Team projects)
  • 문서화되지 않은 제약 조건과 주의사항(gotchas)이 많은 레거시 코드 (Legacy code)

한계점 (v0.9.1)

  • 아직 초기 단계 (v0.9.1) — 미흡한 부분이 있을 수 있습니다.
  • 빌드를 위해 Rust 툴체인 (toolchain)이 필요합니다.
  • Antigravity 어댑터는 SDK 변경 사항을 기다리며 네 번째 릴리스로 보류되었습니다.
  • 최근 분석에 따르면 MCP 서버의 54%가 커뮤니티 채택이 전혀 없는 상태입니다 — 이 프로젝트 역시 개선을 위해 사용자가 필요합니다.

결론 (Bottom Line)

Claude Code가 세션마다 똑같은 실수를 반복하는 것에 지쳤다면, World Model MCP는 10분의 설정 시간을 투자할 가치가 있습니다. +10.2 pt의 SWE-bench 성능 향상은 실제이며, 압축 생존 (compaction survival) 기능 하나만으로도 긴 코딩 세션을 위해 설치할 명분이 충분합니다.

출처: github.com

[25 Jun hn_claude_code를 통해 업데이트]

v0.8.1 릴리스에서는 19개 카테고리에 걸쳐 105개 쌍으로 확장된 모순 해결 벤치마크 (contradiction-resolution benchmark)가 도입되었으며, v0.8.0에서는 증거 유형별 TTL (Time To Live) 및 항목별 출처 필드(source_toolconfirmer)를 포함한 도메인 인지형 신뢰도 감쇠 (domain-aware confidence decay) 기능이 추가되었습니다 [Hacker News 참조]. 이 방법론은 데이터 수집 전인 2026-06-17에 benchmarks/repeat-mistake/DESIGN.md에 사전 등록 및 고정되었으며, 이를 통해 목표를 임의로 변경한다는 비판을 방지했습니다.

_원문은 gentic.news에 게시되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0