지식 및 메모리 관리 v0.0.2: 휴대 가능한 지식 수집

요약

Knowledge and Memory Management 시스템 v0.0.2가 출시되었습니다. 이번 업데이트는 $AGENT_HOME 환경 변수를 통한 휴대성 강화와 웹, 비디오, 기사 등 다양한 소스로부터의 지식 수집 및 하이브리드 벡터 저장소를 활용한 메모리 관리 기능에 집중합니다.

핵심 포인트

$AGENT_HOME 도입으로 환경 간 에이전트 설정 공유 및 휴대성 향상
웹, 비디오, RSS 등 다양한 소스에 특화된 지식 수집 모듈 제공
하이브리드 벡터 저장소와 키-값 인덱스를 통한 효율적인 메모리 관리
중복 제거 및 의미론적 유사성 확인을 통한 데이터 정규화

Knowledge and Memory Management 시스템의 v0.0.2 릴리스는 휴대성(portability)과 관심사의 명확한 분리(separation of concerns)를 향한 분명한 변화를 나타냅니다. 모든 개인 경로는 $AGENT_HOME 환경 변수로 대체되었으며, 이를 통해 v0.0.1에서 문제를 일으켰던 하드코딩된 디렉토리 가정을 제거했습니다. 이번 릴리스는 두 가지 핵심 축인 다양한 소스로부터의 지식 수집(knowledge collection)과 장기 보존을 위한 구조화된 메모리 관리(memory management)에 집중합니다.

$AGENT_HOME이 중요한 이유

이전 버전은 배포마다 수동으로 경로를 설정해야 했기에 설정이 취약했습니다. $AGENT_HOME을 표준화함으로써, 이제 시스템은 런타임(runtime)에 저장소 루트를 결정합니다. 이를 통해 팀원, CI 파이프라인, 컨테이너화된 환경 간에 에이전트 설정을 공유하는 것이 매우 쉬워졌습니다. 메모리 관리자(memory manager), 지식 수집기(knowledge collectors), 인덱싱 엔진(indexing engines) 모두 이 기본 디렉토리를 준수하므로, 원시 다운로드 데이터부터 벡터 데이터(vector data)에 이르기까지 모든 것이 하나의 휴대 가능한 루트 아래에 유지됩니다.

지식 수집: 웹, 비디오, 기사

수집기 모듈(collector modules)은 소스별로 특화되어 있지만 일관된 인터페이스를 내보냅니다. 웹 콘텐츠의 경우, HTML 스크래퍼(scraper)가 스크립트를 제거하고, 이미지(크기 제한 적용)를 다운로드하며, 설정 가능한 파서(parser)를 사용하여 읽기 가능한 텍스트를 추출합니다. 비디오 수집은 YouTube, Vimeo 및 로컬 파일과 같은 트랜스크립트 API(transcript APIs)에 의존하며, 슬라이드가 많은 콘텐츠를 위해 선택적인 프레임 추출 기능을 제공합니다. 기사 수집(Article ingestion)은 RSS 피드와 직접 URL을 처리하며, 긴 글에 대해서는 자동 요약(automatic summarization)을 적용합니다.

각 수집기는 메타데이터(제목, 소스 URL, 타임스탬프, 언어)를 정규화(normalize)하고 페이로드(payload)를 스테이징 큐(staging queue)로 전달합니다. 중복 제거(Deduplication)는 소스 및 메모리 수준에서 실행됩니다. 동일한 URL이나 해시된 콘텐츠는 저장 전에 플래그가 지정됩니다. 또한 수집기는 사용자 정의 필터(custom filters)를 지원합니다. 예를 들어, 단어 수가 일정 수준 미만인 기사나 60초 미만의 비디오를 무시할 수 있습니다.

메모리 관리 (Memory Management): 인덱싱 및 검색 (Indexing and Retrieval)

v0.0.2의 메모리는 하이브리드 벡터 저장소 (vector-store) 및 키-값 인덱스 (key-value index)를 기반으로 구축되었습니다. 지식 항목은 청크 (chunked) 단위로 나뉘고, 임베딩 (embedded, 기본 모델: all-MiniLM-L6-v2)되어 HNSW 기반의 벡터 데이터베이스 (vector database)에 삽입됩니다. 키-값 인덱스는 메타데이터와 관계를 저장하여 관련 항목 간의 그래프 탐색 (graph traversal)을 가능하게 합니다. 새로운 지식이 들어오면 메모리 관리자 (memory manager)는 기존 항목과의 의미론적 유사성 (semantic similarity)을 확인합니다. 중복이 감지되면 새로운 데이터를 사용하여 기존 항목의 타임스탬프 (timestamps)와 참조 (references)를 업데이트할 수 있으며, 중복 항목을 생성하지 않습니다.

검색 (Retrieval)은 밀집 벡터 검색 (dense vector search)과 키워드 기반 필터링 (keyword-based filtering)을 모두 지원합니다. retrieve() 메서드는 쿼리 문자열 (query string), 선택적 소스 필터 (web, video, article), 그리고 최신성 윈도우 (recency window)를 인자로 받습니다. 결과는 코사인 유사도 (cosine similarity)에 따라 순위가 매겨지며, 소스의 신선도 (freshness)에 따라 가중치가 부여됩니다.

코드 예시: 컬렉터 설정 (Code Example: Collection Setup)

다음은 $AGENT_HOME을 사용하여 컬렉터 (collectors)를 구성하고 사용하는 방법을 보여줍니다:

import os
from knowledge_collector import WebCollector, VideoCollector, ArticleCollector
from memory_manager import MemoryManager
...

collect() 메서드는 URL을 검증하고, 콘텐츠를 다운로드하며, 정규화 (normalize)한 뒤 메모리로 푸시 (push)합니다. commit()은 모든 대기 중인 벡터 및 키-값 업데이트를 $AGENT_HOME 저장소 트리 (storage tree)에 기록합니다.

성능 및 확장성 (Performance and Scalability)

메모리 작업은 배치 (batched) 단위로 처리됩니다. 기본적으로 100개의 항목이 쌓이면 자동 커밋 (automatic commit)이 트리거되거나, commit()을 명시적으로 호출할 수 있습니다. 벡터 데이터베이스는 대규모 인덱스를 위해 mmap을 사용하므로, 50만 개 이상의 항목이 있더라도 메모리 오버헤드 (memory overhead)를 예측 가능한 수준으로 유지합니다. 컬렉터는 설계 단계부터 I/O 바운드 (I/O-bound)로 제작되었습니다. 이들은 다운로드 캐싱을 위해 AGENT_HOME을 준수하며 불필요한 네트워크 요청을 방지합니다.

향후 전망 (Looking Ahead)

v0.0.2는 깔끔한 기반을 제공합니다. 다음 마이너 버전(minor version)에서는 교차 소스 병합 (cross-source merging, 예: 비디오 스크립트를 관련 기사와 연결) 및 오래된 항목에 대한 점진적 가비지 컬렉션 (incremental garbage collection)이 도입될 예정입니다. 현재로서는 휴대 가능한 경로 (portable paths)와 분리된 수집/메모리 계층 (collection/memory layers)에 집중함으로써, 이번 릴리스는 환경별 편법 (environment-specific hacks) 없이 웹으로부터 학습해야 하는 프로덕션 에이전트 (production agents)에 적합합니다.

AI 자동 생성 콘텐츠

원문 바로가기

지식 및 메모리 관리 v0.0.2: 휴대 가능한 지식 수집

요약

핵심 포인트

댓글