Memory Grafting: 오프라인 조건부 메모리를 통한 언어 모델 사전 학습 확장

조건부 메모리 (Conditional memory)를 확장하는 것은 언어 모델의 용량을 늘리는 유망한 방법이지만, Engram과 같은 기존 방식은 사전 학습 (Pre-training) 과정에서 대규모 메모리 테이블을 처음부터 학습해야 하므로 메모리 확장에 비용이 많이 들고 때로는 효과적이지 않습니다. 우리는 이식 모델 (Grafting model)의 동결된 은닉 상태 (Frozen hidden states)를 조건부 n-gram 메모리로 활용하는 조건부 메모리 확장 방법인 Memory Grafting을 제안합니다. 빈번하게 등장하는 로컬 n-gram이 주어지면, 우리는 이식 모델을 오프라인으로 실행하여 최종 토큰의 은닉 표현 (Hidden representations)을 메모리 값으로 저장하고, 수신 모델 (Recipient model)이 정확한 최장 일치 접미사 조회 (Exact longest-match suffix lookup)를 통해 이를 검색할 수 있도록 합니다. 검색된 메모리는 경량 프로젝션 (Lightweight projections)과 게이트 (Gates)를 통해 적응되며, 해시 기반의 Engram 폴백 (Fallback)은 일치하지 않는 문맥에 대한 커버리지를 유지합니다. 이식 모델은 오프라인에서만 실행되고 정확한 조회가 메모리 뱅크 (Memory-bank) 크기에 대해 기대 복잡도 $O(1)$을 가지기 때문에, Memory Grafting은 제한된 학습 및 추론 오버헤드로 외부 잠재 용량 (External latent capacity)을 확장합니다. 일치하는 수신 아키텍처 및 사전 학습 예산 하에서의 실험 결과, Memory Grafting은 MoE 및 기존 Engram 베이스라인 모두보다 성능이 향상됨을 보여주었습니다. 2.8B 규모 설정에서, 이는 평균 벤치마크 점수를 MoE의 51.95와 기존 Engram의 52.43에서 53.86으로 향상시켰습니다. 0.92B 규모 설정에서는 모든 이식 모델 변형이 베이스라인보다 성능이 향상되었으며, Qwen3.5-35B-A3B가 가장 강력한 이득을 제공했습니다. 이러한 결과는 사전 학습된 모델이 외부 잠재 메모리의 재사용 가능한 생성기 (Constructors) 역할을 할 수 있음을 시사하며, 향후 언어 모델을 학습 가능한 파라미터(Trainable parameters) 이상으로 확장하기 위한 실질적인 단계를 제공합니다.

Insights

Memory Grafting: 오프라인 조건부 메모리를 통한 언어 모델 사전 학습 확장

요약

핵심 포인트

댓글

신경 연산자 기반 위상 정보 활용 진화 전략을 이용한 편미분 방정식 제약 최적화

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

신경 연산자 기반 위상 정보 활용 진화 전략을 이용한 편미분 방정식 제약 최적화

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리