AI 에이전트의 지식 인프라: KMM v0.0.2는 어떻게 에이전트를 진정으로 '학습'하게 만드는가

요약

KMM v0.0.2는 AI 에이전트의 장기 기억 문제를 해결하기 위해 지식 소화 파이프라인을 제공합니다. 단순 저장을 넘어 수집, 분석, 3단계 계층형 기억 저장 및 자동 동기화를 통해 에이전트가 지식을 체계적으로 축적하도록 돕습니다.

핵심 포인트

단순 저장소가 아닌 수집-분석-저장으로 이어지는 지식 소화 파이프라인 구축
Hot, ..., 저장 계층으로 구분된 3단계 계층형 기억 구조 제공
40개 이상의 도구를 활용한 능동적인 데이터 수집 및 구조화 기능
SenseNova 엔진을 통한 문서(PDF, PPT 등)의 지능형 분석 및 백업 체인 지원
새로운 정보를 자동으로 감지하고 연결하는 지식 발견(Knowledge Discovery) 모듈

AI Agent 아키텍처에 대해 이야기할 때, 사람들은 주로 추론 능력(Reasoning), 도구 호출(Tool Calling), 다단계 계획(Multi-step Planning)에 가장 주목합니다. 이것들은 분명 중요합니다. 하지만 거의 심도 있게 논의되지 않는 문제가 하나 있습니다: Agent가 학습한 지식은 어디에 저장되고, 어떻게 조회하며, 어떻게 축적되는가?

대부분의 AI Agent 작업 모드는 「사용 후 망각(Use and Forget)」 방식입니다. 대화가 끝나면 컨텍스트(Context) 안의 정보는 사라집니다. 장기 기억(Long-term Memory)은 프롬프트(Prompt)에 수동으로 고정해 두거나, 벡터 데이터베이스(Vector Database)에 가공되지 않은 원문 조각들을 잔뜩 밀어 넣는 방식에 의존합니다.

Knowledge-and-Memory-Management (이하 KMM) v0.0.2의 접근 방식은 다릅니다. 이것은 단순한 저장소가 아니라, 하나의 완전한 **지식 소화 파이프라인 (Knowledge Digestion Pipeline)**입니다:

수집 계층 (40+ 도구) → 분석 계층 (AI 처리) → 저장 계층 (3단계 기억) → 클라우드 드라이브 동기화

3단계 기억: 왜 단일 저장소만으로는 부족한가

대부분의 솔루션은 모든 것을 하나의 벡터 라이브러리에 몰아넣고 끝냅니다. KMM은 세 가지 계층으로 나눕니다:

계층	매개체	특징	전형적인 데이터
Hot	Memory tool	현재 세션 컨텍스트 주입, 20K 자 미만	사용자 선호도, 현재 작업 상태
...

이 세 단계는 상호 배타적이지 않습니다. lightweight_recall.py는 세 가지를 동시에 조회하여 일치도에 따라 정렬하여 반환합니다. 로컬에서 검색되지 않나요? 자동으로 AnySearch 수직 검색(Vertical Search)으로 넘어갑니다.

진정으로 유용한 것은 수집 파이프라인입니다

40개 이상의 수집 도구는 단순히 숫자를 늘린 것이 아닙니다. 핵심은 AI Agent가 스스로에게 정보를 '먹이는' 다양한 시나리오를 커버한다는 점에 있습니다:

# 웹페이지를 수집하여 자동으로 핵심 내용을 추출하고 노트를 생성합니다
from knowledge_collector import collect_web
result = collect_web('https://example.com/article')
...

collect_video는 yt-dlp → Whisper ASR → Keyframe OCR로 이어지는 전체 링크를 거쳐, 단순한 원본 MP4 파일을 던져주는 것이 아니라 구조화된 노트를 생성한다는 점에 주목하세요.

문서 지능형 분석: SenseNova 3종 세트

PDF, PPT, Word를 처리할 때 3단계 강등(Degradation) 전략을 사용합니다. SenseNova 엔진은 전체 추출(표, 차트, 삽입된 이미지 포함)을 수행할 수 있으며, 백업 체인은 pdfplumber → pdftotext → pdfminer로 구성되어 하나의 엔진이 실패하더라도 빈손으로 돌아가지 않습니다:

# SenseNova PDF 분석 (텍스트형/스캔형 모두 지원)
python3 $AGENT_HOME/scripts/sensenova_dispatcher.py pdf report.pdf

...

지식 발견: 수동적으로 기다리기보다 능동적으로 스캔하기

가장 흥미로운 모듈은 knowledge_discovery입니다. 매주 일요일 새벽에 OneDrive의 새로운 노트를 자동으로 스캔하여, gbrain에 입력되지 않은 내용을 감지하면 자동으로 노드를 생성하고, 링크를 추가하며, 고립된 페이지(Orphan page) 수정을 실행합니다.

# 지식 발견 수동 트리거
python3 $AGENT_HOME/scripts/knowledge_discovery.py

...

클라우드 드라이브 동기화는 부가 기능이 아닙니다

KMM의 클라우드 드라이브 양방향 동기화는 rclone 통합 인터페이스를 사용하여 OneDrive, Google Drive, Alibaba Cloud Drive, Baidu Netdisk, Dropbox, Mega, pCloud 등 12개 이상의 드라이버를 지원합니다. 4시간마다 cron을 통해 양방향 증분 동기화를 수행합니다.

왜 클라우드 드라이브와 결합해야 할까요? 지식은 백업되어야만 안전하기 때문입니다. 로컬 gbrain 데이터가 손상되면 3단계 기억 중 2단계가 무너집니다. 하나의 rclone 동기화 규칙이 이 문제를 해결합니다.

적용 시나리오

만약 당신이 AI Agent 관련 개발을 하고 있으며 다음과 같은 문제에 직면해 있다면:

과거 지식이 저장되지 않아 LLM에게 같은 질문을 반복해서 던짐
수집한 내용(웹페이지, 논문, 영상)이 구조화되지 않고 단순한 쓰레기 파일처럼 쌓여 있음
Agent에게 '능동적 학습' 능력을 부여하고 싶지만 파이프라인을 어떻게 설계해야 할지 모름
노트가 로컬과 다양한 클라우드 드라이브에 흩어져 있어 Agent가 통합 검색을 할 수 없음

KMM의 파이프라인은 즉시 사용 가능합니다. 설치는 단 한 줄의 bash install.sh면 충분하며, 그 후 수집, 검색, 동기화의 자동화된 cron이 작동하기 시작합니다.

github.com/mage0535/Knowledge-and-Memory-Management

AI 자동 생성 콘텐츠

원문 바로가기