나는 엔지니어가 아닌 마케터입니다. AI 코딩 에이전트를 지휘하여 3개월 만에 오픈 소스 AI 인프라를 출시했습니다.

요약

비엔지니어 마케터가 AI 코딩 에이전트를 활용해 3개월 만에 오픈 소스 AI 메모리 레이어인 'Myco Brain'을 출시했습니다. 이 도구는 에이전트의 기억 상실 문제를 해결하기 위해 결정론적인 데이터 기록과 증거 체인을 제공하는 셀프 호스팅 메모리 솔루션입니다.

핵심 포인트

에이전트의 블랙박스 메모리 문제를 해결하는 결정론적 메모리 레이어 구축
MCP 서버 지원으로 Claude Code, Cursor 등 다양한 도구와 메모리 공유 가능
Postgres 기반의 셀프 호스팅 방식으로 데이터 투명성 및 증거 체인 확보
LongMemEval 벤치마크에서 높은 QA 정확도와 검색 성능 입증
AI 코딩 에이전트를 지휘하여 비엔지니어가 제품을 출시한 사례

3개월 전, 저는 제가 할 일이 아닌 무언가를 만들기 시작했습니다. 저는 작은 에이전시에서 그로스(growth)를 담당하고 있습니다. 저는 전문 엔지니어가 아닙니다. 오늘, 이것은 라이브 상태이며 오픈 소스로 공개되었습니다. 우리가 이것을 왜 만들었는지, 그리고 어떻게 만들었는지에 대해 이야기하겠습니다.

장벽 (The wall)

우리는 고객 업무 전반에 걸쳐 AI 에이전트(AI agents)를 운영하고 있는데, 모든 세션이 매번 기억 상실 상태로 시작됩니다. 우리는 매일 아침 똑같은 컨텍스트(context)를 다시 설명해야 했고, 에이전트가 배운 그 어떤 것도 유지되지 않았습니다. 우리가 시도했던 "메모리" 도구들은 더 조용한 방식으로 상황을 악화시켰습니다. 그것들은 블랙박스(black boxes)였습니다.

모델이 스스로 노트를 작성하고, 조용히 다시 작성하며, 우리는 특정 사실이 어디에서 왔는지 또는 그것이 여전히 사실인지 확인할 방법이 전혀 없었습니다. 심지어 에이전트에게 노이즈가 섞인 이력을 제공하면 행동이 저하되고, 깨끗한 기록으로 교체하면 회복된다는 것을 보여주는 연구도 현재 존재합니다. 이러한 실패는 프로덕션(production) 단계에서 비용을 치르기 전까지는 보이지 않는 상태로 유지됩니다.

베팅 (The bet)

그래서 우리는 블랙박스의 반대되는 것을 만들었습니다. 핵심 아이디어는 모델이 아닌 프로그램이 사실을 기록한다는 것입니다.

Myco Brain은 여러분의 자체 Postgres에서 실행되는 AI 에이전트를 위한 셀프 호스팅(self-hosted) 메모리 레이어(memory layer)입니다. 쓰기 경로(write path)는 결정론적(deterministic)입니다. 동일한 콘텐츠는 콘텐츠 해시(content hash)에 의해 거부되며, 수락된 모든 사실은 소스로 연결됩니다. 또한 LLM은 데이터베이스가 되는 대신 추출을 위한 조언자 역할만 수행합니다. 어떤 사실에 대해 brain_why에 물어보면 증거 체인(evidence chain)을 얻을 수 있습니다: 소스 문서, 추출 방식, 신뢰도(confidence), 그리고 타임스탬프(timestamp)입니다. 단순히 "믿으라"는 식의 요약이 아닙니다.

이것은 하나의 MCP 서버이므로 Claude Code, Cursor, Windsurf, Continue, Zed, 그리고 Claude Desktop이 모두 11개의 brain_* 도구를 통해 동일한 메모리를 공유합니다. 시작할 때 API 키가 필요 없습니다. 전체 텍스트 검색(Full-text search)은 즉시 작동하며, 로컬 Ollama 임베딩(embeddings)을 실행하면 시맨틱 검색(semantic search) 역시 키 없이 작동합니다. 지식 그래프(knowledge graph)는 완전히 로컬에서 Ollama로 구축되거나, 가장 정확한 버전을 위해 Anthropic을 사용하여 구축됩니다.

제 작업물을 확인하실 수 있습니다

모든 벤치마크 (benchmark)는 이를 재현할 수 있는 방법을 함께 제공해야 하며, 저희의 결과물도 마찬가지입니다. Myco Brain은 500개의 질문으로 구성된 전체 LongMemEval oracle 서브셋에 대해 reader gpt-4o-mini, judge gpt-4o를 사용하여 73.6%의 엔드 투 엔드 (end-to-end) QA 정확도와 92%의 recall@5 (검색 (retrieval)) 점수를 기록했습니다. 테스트 하네스 (harness)는 리포지토리 (repo)에 포함되어 있습니다. 단 한 번의 명령어로 제 말을 믿는 대신 직접 수치를 확인할 수 있습니다.

실제로 어떻게 구축되었나

저는 AI 코딩 에이전트 (AI coding agents) 팀을 지휘했습니다. 약 3개월의 시간과 약 6,000달러의 모델 비용이 소요되었습니다. 중요한 것은 가격이 아닙니다. 명확한 제품 비전과 현대적인 에이전트 도구 (agent tooling)가 있다면, 2년 전에는 직접 코드를 작성할 수 없었을 사람도 CI에서 엔드 투 엔드 (end-to-end)로 테스트되는 프로덕션급 인프라 (production-grade infrastructure)를 출시할 수 있다는 점입니다. 이는 여전히 저를 놀라게 합니다.

직접 사용해 보세요

git clone https://github.com/thegoodguysla/myco-brain.git
cd myco-brain
docker compose up -d
...

이 명령은 Postgres, MCP 서버, 그리고 추출 워커 (extraction worker)를 부팅한 다음, 여러분의 에이전트를 이에 연결합니다. 특정 리포지토리 (repo)나 폴더를 지정한 뒤 세션을 넘나들며 질문해 보세요: "인증 (auth)에 대해 무엇을 결정했었나요? 그리고 그 내용은 어디에 문서화되어 있나요?" 그러면 출처 파일이 인용된 답변을 얻을 수 있습니다.

이 프로젝트는 Apache-2.0 라이선스이며 셀프 호스팅 (self-host)이 무료입니다. AI로 무언가를 구축하고 계신다면, 꼭 사용해 보시고 무엇이 제대로 작동하지 않는지 알려주시면 감사하겠습니다. 리포지토리 (Repo): https://github.com/thegoodguysla/myco-brain

AI 자동 생성 콘텐츠

원문 바로가기