arXiv논문2026. 06. 18. 12:30

사용자를 엔그램(Engram)으로: 개별 사용자 메모리를 로컬 파라미터 편집(Local Parametric Edits)으로 내재화하기

요약

사용자의 개인적 메모리를 모델 내부의 국소적 파라미터 편집(Engram)으로 내재화하는 새로운 연구를 제안합니다. 기존 LoRA 방식과 달리 콘텐츠와 추론 능력을 분리하여 메모리 효율성을 극대화하고 모델 오염을 방지합니다.

핵심 포인트

콘텐츠(엔그램)와 추론 능력(신피코텍스)을 분리하여 모델 설계
LoRA 대비 메모리 점유율을 약 33,000배 절감
간접 추론 정확도를 평균 5.6배 향상
해시 키 기반의 정밀한 편집으로 사용자 간 간섭 방지 및 확장성 확보

언어 모델에서의 개인적 메모리는 콘텐츠(content)와 추론 능력(reasoning skill)이라는 두 가지 문제입니다. 뇌는 이 둘을 분리하여 유지합니다(각 에피소드에 대해 해마에 저장되는 희소하고 국소적인 엔그램(engram), 그리고 이를 해석하는 공유된 기술을 위한 느린 신피질(neocortex)). 따라서 새로운 사실이 다른 모든 것을 덮어쓸 필요가 없습니다. 오늘날 대부분의 개인화는 사용자의 사실을 가중치(weights) 외부에 자연어 메모리 파일이나 검색 인덱스(retrieval index) 형태로 유지합니다. 반면 사실을 모델 내부에 직접 기록할 때 사용하는 표준 방식은 사용자별 LoRA 어댑터(LoRA adapter)인데, 이는 뇌와는 정반대로 콘텐츠와 기술을 하나의 전역 가중치 델타(global weight delta)로 통합해 버립니다. 사용자의 사실을 LoRA로 작성하면 그와 관련 없는 텍스트까지 오염시키지만, 동일한 사실을 국소적 엔그램(Engram) 행으로 작성하면 수학적으로 영향을 받지 않은 상태로 유지되어 메모리 점유율(memory footprint)을 약 33,000배 줄일 수 있습니다.

이에 따라 우리는 User as Engram을 제안합니다. 즉, 사용자의 콘텐츠를 엔그램 모델의 해시 키 기반(hash-keyed) 메모리 테이블에 대한 정밀한 편집(surgical edits)으로 저장하고, 추론 능력은 하나의 공유된 어댑터에 담아 유지하는 방식입니다. 이러한 계층적 설계는 사용자별 LoRA의 직접적인 회상(direct recall) 능력을 유지하면서도, 평균적으로 5.6배 더 높은 간접 추론(indirect-reasoning) 정확도를 제공하며, 단 한 명의 사용자도 수정되지 않은 베이스 모델보다 추론 능력이 떨어지게 만들지 않습니다. 이 편집 방식은 글래스 박스(glass box) 구조입니다. 사실을 기록하면 정확히 트리거(trigger) 시점에 조회가 활성화되고, 답변에 필요한 값을 추가하며, 마지막 비트까지 다른 모든 위치를 변경하지 않은 채 유지하며, 잘못된 레이어에 기록될 경우 실패합니다. 서로 다른 사용자의 사실은 서로 분리된 해시 슬롯(hash slots)에 배치되므로, 그들의 편집은 결합(compose)될 수 있습니다. 즉, 많은 사용자가 하나의 공유 테이블에 동시에 거주하며 가산적(additively)이고 손실 없이(losslessly) 쌓일 수 있는데, 단 하나의 전역 가중치 델타만을 허용하는 사용자별 LoRA와는 대조적입니다. 검색 시 사용자별 엔그램 테이블은 검색 대상 인구수에 따라 커지지 않으므로, 약 100개의 사실을 넘어서는 시점부터는 2.5배 더 큰 모델을 사용하는 검색 파이프라인(retrieval pipeline)보다 우수한 성능을 보입니다.

AI 자동 생성 콘텐츠

원문 바로가기

사용자를 엔그램(Engram)으로: 개별 사용자 메모리를 로컬 파라미터 편집(Local Parametric Edits)으로 내재화하기

요약

핵심 포인트

댓글