CPU 기반 로컬 AI 메모리 게이트를 구축했는데, 7B 모델이 너무 똑똑해서 1.5B 모델보다 점수가 낮게 나온 이유

요약

VRAM 소모 없이 로컬 LLM을 위한 가볍고 오프라인인 메모리 레이어 'Hillock' 프로젝트를 소개합니다. SQLite와 초차원 컴퓨팅(HDC)을 결합하여 기호적 토대와 동적 연상 가중치를 구축하는 아키텍처를 제안합니다.

핵심 포인트

VRAM 낭비 없는 로컬 LLM용 메모리 레이어 구축
SQLite와 초차원 컴퓨팅(HDC)을 활용한 아키텍처
모델 성능 향상이 경직된 평가 스크립트에서는 점수 하락으로 이어지는 역설 경험
순수 Python 기반의 오픈 소스 프로젝트

안녕하세요 여러분,

저는 Hillock이라는 개인적인 로컬 프로젝트를 해킹하듯 개발해 오고 있습니다. 솔직히 말씀드리면, 아직 진행 중인 작업이며 완벽한 돌파구는 아닙니다. 하지만 무거운 신경망 벡터 데이터베이스 (neural vector database)를 실행하는 오버헤드 없이, 혹은 소중한 VRAM을 낭비하지 않으면서 로컬 LLM을 위한 가볍고 완전히 오프라인인 메모리 레이어를 구축할 수 있을지 확인해보고 싶었습니다.

이 프로젝트의 이름은 생물학적 _Axon Hillock_에서 따왔습니다. 이는 인간 뉴런에서 들어오는 전기적 전하를 합산하여 발화할지(게이트를 열지) 아니면 침묵할지(차단할지)를 결정하는 영역입니다.

아키텍처 작동 방식:

Ground Truth (SQLite): 단순한 데이터베이스 트리플 (Subject-Predicate-Object, 주어-술어-목적어) 형태로 확정된 사실을 저장하여 시스템이 견고한 기호적 토대 (symbolic foundation)를 갖도록 합니다.
Synapses (Hebbian Plasticity, 헤브식 가소성): 대화 중에 어떤 개념들이 함께 나타나는지 추적하여, 그래디언트가 없는 (gradient-free) 연상 가중치를 동적으로 구축합니다.
Context (Hyperdimensional Computing, 초차원 컴퓨팅): 이력을 회전시키고, 결합하고, 축적하는 10,000차원의 누수 컨텍스트 벡터 (leaky context vector)를 유지합니다. 이는 시스템이 대명사(예: "그/그녀")를 해결하고, 환각 (hallucinations)을 방지하기 위해 언제 쿼리를 차단할지 결정하는 데 도움을 줍니다.

"더 똑똑한 모델, 더 낮은 점수"의 역설

저는 복잡한 문장 구조와 어려운 부정 사례 (hard negatives, 예를 들어 텍스트에는 퀴리(Curie)가 방사능을 발견하고 아인슈타인(Einstein)이 그녀와 함께 일했다는 내용만 있는데 아인슈타인이 무엇을 발견했는지 묻는 경우)를 포함한 까다로운 32문장 과학 벤치마크를 작성했습니다.

Qwen 2 (1.5B)를 실행했을 때는 약 **50.0%**의 검색 정확도 (Retrieval Accuracy)를 기록했습니다. 하지만 훨씬 더 똑똑한 Qwen 3 (5.2GB)로 업그레이드했을 때, 제 로컬 머신에서의 데이터 주입 (ingestion) 시간은 20분으로 급증했고, 점수는 오히려 **25.0%**로 떨어졌습니다!

왜일까요? Qwen 3가 저의 경직된 평가 스크립트에는 너무 표현력이 풍부하기 때문입니다:

테스트는 Marie_Curie born_in Poland를 기대했습니다. Qwen 3는 [Marie_Curie] -[spent_childhood_in]-> [Poland]를 추출했습니다.
테스트는 Albert_Einstein을 기대했습니다. Qwen 3는 [albert_einstein] (소문자)을 추출하여, 정확한 문자열 일치 (exact-string) 검사를 통과하지 못했습니다.
테스트는 compiler를 기대했습니다. Qwen 3는 [first_compiler]를 추출했습니다.

따라서 Qwen 3는 단 한 번의 패스 (single pass)로 블록당 최대 6개의 깨끗한 관계 (relations)를 추출하며, 아름답고 매우 정확하며 대화적인 트리플 (triples)로 데이터베이스를 채웠음에도 불구하고, 경직된 평가 하네스 (evaluation harness)에 의해 감점을 당한 것입니다.

코드베이스는 순수 Python으로 작성되었으며, 완전히 오픈 소스 (AGPL-3.0 카피레프트 라이선스 하에)이고, 소비자용 하드웨어에서 완전히 오프라인으로 실행되도록 설계되었습니다.

만약 VSA (Vector Symbolic Architectures), 대안적인 인지 아키텍처 (cognitive architectures)에 관심이 있거나, HDC (Hyperdimensional Computing) 컨텍스트 바인딩 (context-binding) 수학에 대한 피드백이 있다면, 꼭 확인해 주시기 바랍니다!

GitHub Repository: https://github.com/roandejager/Hillock

AI 자동 생성 콘텐츠

원문 바로가기

CPU 기반 로컬 AI 메모리 게이트를 구축했는데, 7B 모델이 너무 똑똑해서 1.5B 모델보다 점수가 낮게 나온 이유

요약

핵심 포인트

아키텍처 작동 방식:

"더 똑똑한 모델, 더 낮은 점수"의 역설

댓글