AI 에이전트를 위한 지식 파이프라인 구축: 자동 수집, 의미론적 검색 및 클라우드 동기화

요약

AI 에이전트의 지식 부족과 콜드 스타트 문제를 해결하기 위한 통합 지식 파이프라인 KMM 프로젝트를 소개합니다. 수집, 분석, 저장, 클라우드 동기화의 4단계 사이클을 통해 에이전트에게 고품질의 전처리된 지식을 공급합니다.

핵심 포인트

수집, 분석, 저장, 동기화로 이어지는 통합 지식 관리 사이클 구축
웹, 비디오, 문서 등 다양한 소스로부터의 자동 데이터 수집 지원
지식 그래프 추출 및 NLI 기반 사실 확인을 통한 분석 레이어 제공
Hot/Warm/Cold 3단계 메모리 구조를 통한 효율적인 지식 저장
rclone을 활용한 다양한 클라우드 스토리지와의 자동 동기화

얼마 전 저는 저의 노트 필기 워크플로우가 망가졌다는 것을 깨달았습니다. 수십 개의 기사를 스크랩하고, 튜토리얼을 북마크하고, PDF를 다운로드하고, YouTube 요약본을 저장했지만 — 정작 그것들이 실제로 필요할 때는 다시는 찾을 수 없었습니다. 저의 AI 에이전트는 현재 대화 이외에는 실질적인 기억이 없었고, 벡터 저장소 (vector store)가 있더라도 콜드 스타트 (cold start) 문제로 고통스러웠습니다. 애초에 지식은 어디서 오는 것일까요?

저는 개인용 지식 파이프라인을 구축하기 시작했고, 이는 결국 Knowledge and Memory Management (KMM) 프로젝트로 성장했습니다. 이는 hermes-memory-installer를 위한 오픈 소스 확장 레이어로, **수집(collect) → 분석(analyze) → 저장(store) → 동기화(sync)**의 전체 사이클을 다룹니다.

아키텍처 개요

KMM은 세 가지 레이어로 구성됩니다:

수집 레이어 (Collection Layer, 40개 이상의 도구) – 웹 스크래핑 (web scraping), 비디오/오디오 전사 (transcription), 기사 추출, 문서 OCR, 그리고 도서 자동 요약까지 지원합니다.
분석 레이어 (Analysis Layer) – AI 기반 노트 생성, 지식 그래프 (knowledge graph) 추출, NLI 사실 확인 (fact-checking), 그리고 발견/회상 (discovery/recall)을 수행합니다.
저장 레이어 (Storage Layer, 3단계 메모리) – Hot (Memory 도구를 통한 작업 기억), Warm (10K 노드 규모의 사후 회상), Cold (11K 페이지 규모의 gbrain).

여기에 rclone을 래핑하여 OneDrive, Google Drive, Dropbox, WebDAV, S3 및 수십 개의 다른 제공업체를 지원하는 **클라우드 동기화 레이어 (cloud sync layer)**가 추가되었습니다.

구축 이유

기존 도구들은 문제의 일부만 해결합니다. 브라우저 플러그인으로 스크래핑할 수는 있지만, 데이터는 고립된 상태로 남습니다. 문서를 벡터 DB (vector DB)에 임베딩할 수는 있지만, 여전히 수동으로 데이터를 공급해야 합니다. 저는 다음과 같은 기능을 갖춘 **통합 파이프라인 (unified pipeline)**을 원했습니다:

웹, 비디오, 문서 및 도서로부터 자동으로 수집
구조화된 노트를 생성하고 지식 그래프 추출
의미론적 검색 (semantic search)을 통해 이 모든 것을 즉시 검색 가능하게 함
모든 것을 나의 클라우드 드라이브 간에 동기화 유지

KMM은 메모리 사이드카 (memory sidecar)를 대체하는 것이 아니라, 고품질의 전처리된 지식을 통해 메모리에 공급합니다.

빠른 시작

hermes-memory-installer를 설정한 후, KMM을 설치하세요:

git clone https://github.com/mage0535/Knowledge-and-Memory-Management.git
export AGENT_HOME=/path/to/your/agent

이 프로젝트는 이식 가능한 경로 (portable paths)를 사용하므로, 하드코딩된 디렉토리가 없습니다. 40개 이상의 도구 중 하나를 사용하여 수집 (collection)을 실행하세요:

# 웹페이지를 스크레이핑 (Scrape)하고 자동으로 노트를 생성합니다
python src/knowledge_collector/web.py --url https://example.com --note

...

클라우드 동기화 (cloud sync)를 위해서는 rclone을 설정한 후 다음을 실행하세요:

python src/cloud_sync/sync.py --remote onedrive:MyNotes

모든 데이터는 3계층 메모리 (three-tier memory)로 흘러 들어가므로, AI 에이전트가 대화 중에 이를 회상 (recall)할 수 있습니다.

사용해야 할 때 (그리고 사용하지 말아야 할 때)

적합한 경우: 개인용 AI 어시스턴트를 구축하는 개발자, 많은 양의 콘텐츠를 소비하는 연구자, 수동 노트 작성이 지겨운 모든 사람.
적합하지 않은 경우: 실시간 협업이 필요한 팀 (이 프로젝트는 단일 에이전트 설정을 위해 설계되었습니다), 또는 설정이 전혀 필요 없는 SaaS 제품을 원하는 사용자. 이것은 DIY 파이프라인입니다.

기술 스택 (Tech Stack)

Python 3.10+, yt-dlp, rclone, 문서 변환을 위한 MarkItDown, 그리고 분석을 위한 몇 가지 AI API를 사용합니다. docs/tool-versions.md에 모든 검증된 의존성 (dependencies)이 나열되어 있습니다.

결과

저는 더 이상 지식을 수동으로 정리하지 않습니다. 제 AI 에이전트가 컨텍스트 (context)가 필요할 때, 어제의 블로그 포스트, 지난주의 PDF, 또는 지난달의 YouTube 재생 목록에서 스스로 찾아냅니다. 동기화 계층 (sync layer)이 모든 것을 백업하고 이식 가능하게 유지해 줍니다.

만약 메모리가 강화된 에이전트를 구축 중이며 입력 소스 문제로 어려움을 겪고 있다면, KMM을 살펴보세요. MIT 라이선스이며 PR (Pull Request)은 언제나 환영합니다.

GitHub에서 확인하세요: github.com/mage0535/Knowledge-and-Memory-Management

AI 자동 생성 콘텐츠

원문 바로가기

Insights