본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 11. 19:10

Andrej Karpathy의 LLM Wiki에서 영감을 받은 자체 업데이트 SEO 브레인 구축하기

요약

본 기사는 Andrej Karpathy의 'LLM Wiki' 아이디어에서 영감을 받아, 단순한 RAG(Retrieval-Augmented Generation) 시스템의 근본적인 한계점인 '기억 상실' 문제를 해결하는 방법을 다룹니다. 기존 SEO 모니터링 파이프라인은 매번 쿼리할 때마다 지식을 처음부터 재발견하는 데 그쳐, 시간 경과에 따른 복합적이고 누적적인 통찰력을 제공하지 못했습니다. 필자는 이 문제를 해결하기 위해 단순한 검색을 넘어선 '기억' 기능을 갖춘 자체 업데이트형 SEO 브레인 구축의 필요성을 제기합니다.

핵심 포인트

  • RAG 시스템은 본질적으로 메모리가 부족하여, 시간 경과에 따른 지식의 누적 및 연결(Compound Knowledge)이 어렵다.
  • 단순한 검색 기반의 RAG는 '어제 무엇을 찾았는지'를 기억하지 못해 맥락적인 통찰력 제공에 한계가 있다.
  • 성공적인 시스템은 단순히 데이터를 가져오는 것을 넘어, 시간 순서와 이벤트 간의 인과관계를 연결하고 메모리화해야 한다.
  • 기술적 안정성 문제(VM 고장, DB 설정 변경 등)는 복잡한 파이프라인 구축 시 예상되는 주요 장애물이다.

2026년 4월 초, Andrej Karpathy(OpenAI 공동 창립자, 전 Tesla AI 디렉터)가 겉보기에는 단순하지만 생각을 바꾼 트윗을 올렸습니다. "최근에 매우 유용하다고 느끼는 것이 있습니다: LLM을 사용하여 다양한 연구 관심 주제에 대한 개인 지식 기반을 구축하는 것입니다." 그는 이어서 'LLM Wiki'라는 제목의 GitHub gist를 통해, 매번 쿼리할 때마다 같은 정보를 재발견하는 대신 시간이 지남에 따라 실제로 복합적으로 증가하는(compound) 지식 기반을 구축하는 패턴에 대한 "아이디어 파일"을 설명했습니다. 저는 이를 실제 프로덕션 문제에 적용하기로 결정했습니다.

문제: RAG는 메모리가 없다 우리 조직에서는 랜딩 사이트에 대한 SEO 모니터링 파이프라인을 운영하고 있었습니다. 이 파이프라인은 Neo4j + ChromaDB를 백엔드로 사용하는 Cognee(지식 그래프 프레임워크)를 사용했으며, 월 $35짜리 VM에서 구동되었습니다. 매일 다음과 같은 작업을 수행했습니다:

  • Google Search Console 데이터 가져오기
  • SEO 문제를 위해 페이지 스크래핑하기
  • 지식 그래프에 쿼리하기
  • Slack 보고서 게시하기

작동은 했습니다. 하지만 근본적인 결함이 있었습니다. 바로 Karpathy가 모든 RAG 시스템에서 설명하는 그 결함입니다. 실행할 때마다 처음부터 지식을 재발견하고 있었습니다. 어제 무엇을 찾았는지에 대한 메모리가 없었습니다. "3월 13일에 이 수정 사항을 배포했다"와 "3월 18일에 클릭률이 81% 증가했다"를 연결할 수 없었습니다. "이 키워드는 3주 동안 감소하고 있습니다, 이유가 여기 있습니다."라고 말할 수도 없었습니다. 그저 현재의 쿼리에 답하고 모든 것을 잊어버릴 뿐이었습니다.

게다가:

  • VM이 3번 이상 고장났습니다.
  • Neo4j 설정 문제.
  • ChromaDB API 경로 변경.
  • 사이드카 컨테이너가 조용히 실패했습니다.

우리는 파이프라인을 수정하는 데 시간을 더 많이 썼습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0