arXiv논문2026. 06. 01. 11:03

설계에 의한 메모리: 확률적 시퀀스 레이어 (Memory by Design: Probabilistic Sequence Layers)

요약

설계-모델(design-model) 프레임워크를 통해 메모리에 대한 명시적 가정을 바탕으로 효율적인 순환 시퀀스 맵을 도출하는 방법을 제안합니다. 베이지안 필터링을 활용하여 메모리의 불확실성을 추적하고, 선형 어텐션 및 Mamba-2와 같은 구조를 하나의 프레임워크 내에서 통합적으로 설명합니다.

핵심 포인트

베이지안 필터링을 통한 메모리 증거 기록 및 불확실성 추적
Linear attention, GLA, Mamba-2를 포함하는 통합 프레임워크 제안
공분산 복원을 통한 검색 역학의 폐쇄형 예측 가능
Gated DeltaNet 증류를 통한 RULER 롱 컨텍스트 성능 향상

우리는 설계-모델 (design-model) 프레임워크를 소개합니다. 이는 메모리에 대한 명시적인 가정으로부터 효율적인 순환 시퀀스 맵 (recurrent sequence maps)을 도출하는 방법입니다. 설계 모델은 정확한 베이지안 필터링 (Bayesian filtering)을 통해 메모리에 증거를 기록하며, 쿼리 의존적 판독 (query-dependent readout)은 평균이 레이어 출력값이 되는 예측 분포를 생성합니다. 우리의 선형-가우시안 (linear-Gaussian) 구현체에서, extit{베이지안 레이어 (Bayesian Layer)}는 평균과 공분산 (covariance)을 모두 전파합니다. 공분산은 저장된 연관 관계에 대한 불확실성을 추적하여, 쓰기 작업을 불확실한 방향으로 유도하고, 증거가 축적됨에 따라 이득 (gains)을 감쇠시키며, 확신이 있는 메모리를 보존합니다. 동일한 프레임워크는 여러 개의 하위 이차 (sub-quadratic) 순환 구조를 통합합니다. 선형 어텐션 (Linear attention), GLA, 그리고 Mamba-2/SSD는 하나의 설계 모델 하에서 정확한 필터이며, DeltaNet 및 관련 Delta-rule 모델들은 다른 설계 모델 하에서의 공분산-재설정 (covariance-reset) 축소 결과로 나타납니다. 공분산을 복원하면 검색 역학 (retrieval dynamics)에 대한 폐쇄형 (closed-form) 예측을 얻을 수 있으며, 이는 경험적으로 검증되었습니다. 또한 제어된 충돌 연구 (collision studies), 학습된 연관 회상 (learned associative recall), 그리고 Zoology MQAR 벤치마크를 통해 훈련 범위를 넘어선 강건성 (robustness)을 향상시킵니다. 베이지안 레이어를 사전 학습된 340M Gated DeltaNet으로 증류 (distilling)하면, 동일한 연산량 대비 RULER 롱 컨텍스트 (long-context) 검색 성능을 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

설계에 의한 메모리: 확률적 시퀀스 레이어 (Memory by Design: Probabilistic Sequence Layers)

요약

핵심 포인트

댓글