Live Memory: Claude Code 세션마다 저장소를 다시 읽는 것을 방지하세요

모든 Claude Code 세션은 파일 재읽기, 재그레핑(re-grepping), 동일한 컨텍스트에 대한 비용 재지불 등 코드베이스를 처음부터 다시 탐색합니다. live-memory는 장기 실행되는 MCP 서버에서 별도의, 더 저렴한 대규모 컨텍스트 모델(large-context model)을 실행하며, 이 서버의 유일한 임무는 시간이 지남에 따라 귀하의 저장소에 대한 지식을 축적하는 것입니다. 귀하의 메인 에이전트는 저장소를 직접 다시 로드하는 대신, 읽기 전용 도구인 ask_live_memory를 통해 이 서버에 질문을 던집니다.

무료로 수동적으로 학습합니다

PostToolUse 및 FileChanged 후크(hook)는 에이전트가 읽거나 편집하는 모든 파일의 **콘텐츠를 메모리로 복제(tee)**합니다. 따라서 에이전트는 실제 작업의 부수 효과로서 — 다시 읽기 위한 비용을 지불하지 않고도 — 코드를 학습하며, 저장소가 변경됨에 따라 최신 상태를 유지합니다. 관찰된 편집은 권위 있는 정보로 간주되어 즉시 적용되는 반면, 대역 외 변경(외부 에디터, git checkout)은 오래된 것으로 표시되어 다음 사용 시 다시 읽힙니다. ask_live_memory는 수동 레이어가 아직 보지 못한 모든 것에 대한 능동적인 폴백(fallback) 역할을 합니다.

워크스페이스당 하나의 싱글톤, 추가 전용(append-only)

이 서버는 모든 Claude Code 세션 — 즉, 여러 에이전트가 동시에 그리고 시간이 지남에 따라 — 서비스하는 **싱글톤(singleton)**이며, 상태를 워크스페이스별(cwd)로 키를 지정합니다. 컨텍스트 윈도우는 압축(compaction) 사이에는 추가 전용(append-only) 방식입니다. 압축은 지식 원장(knowledge ledger)으로의 중립적이고 쿼리 불가지론적인(query-agnostic) 요약 과정입니다(높은/낮은 워터마크를 사용하여 드물게 배치 처리됨). 이는 결코 앞부분을 잘라내는 방식(front-truncation)이 아니므로, 오래된 지식은 버려지는 것이 아니라 증류(distilled)됩니다. 백그라운드 유지 루프(keep-warm loop)는 KV/프롬프트 캐시를 활성화된 상태로 유지하여 지연 시간과 비용을 절감합니다.

공급자 교체 가능 및 설정 불필요

이는 공급자 교체 가능 (provider-pluggable) 하며 (cache_control을 사용하는 Anthropic Messages 또는 DeepSeek, 게이트웨이와 같은 모든 OpenAI 호환 엔드포인트), 설정이 필요 없습니다 (zero-config). API 키 없이 Claude 구독만 있으면, Haiku에서 구독 OAuth 토큰(자동 갱신됨)을 사용합니다. 2단계 타임아웃(two-tier timeout)을 통해 모델에 예산을 할당하고, 엄격한 MCP 타임아웃이 발생하기 전에 최선의 답변(best-effort answer)을 반환합니다. 모델이 접근할 수 있는 모든 것은 읽기 전용(read-only)이며 경로 격리(path-jailed) 되어 있습니다. 사용자용 상태 확인은 /live-memory-stats 슬래시 명령어를 통해 이루어지며, 에이전트의 도구 인터페이스(tool surface)에는 노출되지 않습니다.

이것이 효과가 있을까요?

실제 리포지토리에서 claude -p A/B 테스트를 진행한 결과, 이해도가 중요한 작업에서 빌딩(premium) 모델은 코드베이스 읽기 토큰의 **약 93%**를 라이브 메모리(live-memory)로 오프로드(offload)했습니다. 그 결과 태스크당 비용은 약 61% 절감되었고, 속도는 약 22% 더 빨라졌습니다. 또한 비용 예측이 더 용이해졌습니다 (메모리가 없는 그룹은 가끔 긴 재읽기 루프에 빠지며 비용이 급증했습니다). 솔직한 범위(scope)를 말씀드리자면, 순수 편집/실행 작업은 대략 손익분기점 수준이며, 현실적인 하이브리드(이해 후 편집) 작업에서는 전체 절감액이 태스크당 **약 11%**로 더 작습니다. 즉, 이것은 _타이핑_을 저렴하게 만드는 것이 아니라 _이해(understanding)_를 저렴하게 만드는 것입니다.

보조 모델은 저렴한 모델로 실행됩니다 — 그리고 매우 저렴할 수 있습니다

위에서 언급한 프리미엄 모델의 절감액은 무엇을 하든 유지되는 이득입니다. 추가되는 유일한 비용은 작은 메모리 모델을 실행하는 비용이며, 이 모델은 교체가 가능합니다. 기본값은 Haiku이지만, 당사의 정확도 테스트(15개 질문 × 3회 반복) 결과 deepseek-v4-flash가 Haiku와 대등하거나 — 약간 앞섰습니다 (정확도 98% vs 91%, 더 적은 환각(hallucination), 두 모델 모두 부정적 함정(negative traps)에서 완벽함) — 그러면서도 토큰 가격은 약 8배 더 저렴했습니다. 또는 **로컬 모델(local model)**을 사용하여 거의 무료로 사용할 수도 있습니다. 보조 모델이 저렴할수록 전체 비용은 프리미엄 모델의 순수 절감액에 더 가까워집니다. 빌딩 모델의 절감 수치인 **-61%**와 비교했을 때, **Haiku 사용 시 전체 -25% → deepseek-v4-flash 사용 시 전체 -57%**의 절감 효과를 보입니다.

설치

Live Memory는 한 번 실행하면 되는 HTTP MCP 서버와 이를 연결하는 플러그인으로 구성됩니다 — 먼저 서버를 시작하세요:

Claude 구독 시 설정 불필요 (zero-config) → Haiku (또는: cd ../server && pip install -e . && python -m live_memory)

git clone https://github.com/shofer-dev/claude-code-live-memory
cd claude-code-live-memory/deploy && ./install-service.sh

그 다음, Claude Code 세션 내부에서:

/plugin marketplace add shofer-dev/claude-code-live-memory
/plugin install live-memory@shofer-live-memory

에이전트에게 전체 저장소(whole-repo)에 관한 질문을 던지세요. 그러면 에이전트가 파일을 직접 읽는 대신 ask_live_memory를 호출할 것입니다.

독립형 Claude Code 플러그인 — Python, Apache-2.0. 출처: github.com/shofer-dev/claude-code-live-memory

Insights

Live Memory: Claude Code 세션마다 저장소를 다시 읽는 문제 해결하기

요약

핵심 포인트