arXiv논문2026. 06. 30. 11:21

메모리 관리형 긴 문맥 어텐션 (Memory-Managed Long-Context Attention): 편집 가능한 요청 국소 메모리에 대한

요약

긴 문맥 언어 모델의 효율적인 이력 압축과 신뢰할 수 있는 장기 메모리 유지를 위해 '메모리 관리형 긴 문맥 어텐션' 연구를 제안합니다. 편집 가능한 국소 메모리 슬롯과 쿼리 시점의 희소 폴백을 결합한 하이브리드 방식을 통해 기존 방식의 한계를 극복합니다.

핵심 포인트

편집 가능한 요청 국소 메모리 슬롯을 통한 메모리 관리 메커니즘 제안
순수 고정 상태 또는 희소 방식의 한계를 보완하는 하이브리드 구조
2M 토큰 규모의 스트레스 테스트에서 높은 정확도 입증
제어된 슬롯 수명 주기와 희소 폴백의 필요성 확인

긴 문맥 언어 모델 (Long-context language models)은 종종 두 가지 서로 다른 목표, 즉 이력을 효율적인 상태로 압축하는 것과 신뢰할 수 있는 장기 메모리를 유지하는 것을 혼동합니다. 선형 (Linear), 순환 (Recurrent), 그리고 희소 어텐션 (Sparse attention)은 긴 시퀀스를 처리하는 비용을 줄여주지만, 그 자체만으로는 언제 사실이 기록되어야 하는지, 덮어씌워져야 하는지, 방해 요소로부터 보호되어야 하는지, 또는 폐기되어야 하는지를 지정하지 못합니다. 우리는 빠른 순환 (Recurrent) 또는 희소 (Sparse) 백본을 명시적으로 편집 가능한 요청 국소 메모리 슬롯 (Editable request-local memory slots) 및 쿼리 시점의 희소 폴백 (Query-time sparse fallback)과 분리하는 연구 경로인 메모리 관리형 긴 문맥 어텐션 (Memory-managed long-context attention)을 연구합니다. 구조화된 합성 작업 (Structured synthetic tasks), 토큰/청크/시퀀스 브리지 (Token/chunk/sequence bridges), 생성된 자연어, 그리고 국소 동결 모델 진단 (Local frozen-model diagnostics) 전반에 걸쳐, 순수 고정 상태 (Pure fixed-state) 또는 순수 희소 (Pure sparse) 방식은 덮어쓰기, 버전, 오염 방지 (Anti-pollution), 또는 쓰기 신호 없음 (No-write-signal) 사례에서 실패하는 반면, 하이브리드 방식은 두 경로를 모두 충족합니다. 2,097,152 토큰 규모의 작은 메커니즘 스트레스 테스트는 2~132개의 활성 청크 (Active chunks)에서 50/50 풀링 정확도 (Pooled accuracy)에 도달합니다. 2.74M 파라미터의 최소 인과적 이벤트 토큰 (Minimal causal event-token) 모델은 가벼운 쓰기 감독 (Lite write supervision)을 통해 600개 중 595개를 달성하며, 이는 규모보다는 학습 가능성 (Trainability)의 증거를 뒷받침합니다. 6개 계열의 동결된 은닉 상태 브리지 (Six-family frozen-hidden-state bridge)는 1080개 중 1079개의 제어된 포인터 정확도 (Controlled pointer accuracy)에 도달하지만, 이는 생성기가 제공하는 정수 키 ID (Integer key IDs)와 별도로 인코딩된 표준 키 문자열 (Canonical key strings)을 사용합니다. 이는 오라클 메타데이터 프로브 (Oracle-metadata probe)이지, 오픈 텍스트 개체 해상도 (Open-text entity resolution)가 아닙니다. 로컬 비-리더보드 RULER 4K 진단은 전체 문맥에 가깝게 유지되는 반면, 33개 레코드의 LongBench v1 16K 서브셋은 단순한 어휘 선택 (Naive lexical selection)이 일반적이지 않음을 보여줍니다. 이 증거는 세 가지 주장을 분리합니다: 제어된 슬롯 수명 주기 (Controlled slot lifecycle)는 실행 가능하며, 쓰기에 미래 쿼리 신호가 부족할 때는 희소 폴백 (Sparse fallback)이 필요하고, 학습된 오픈 도메인 선택 (Learned open-domain selection)이 여전히 주요 아키텍처 병목 현상으로 남아 있다는 것입니다. 우리는 최종적인 생성 아키텍처, 전역 슬롯 궤적 수렴 (Global slot-trajectory convergence), 또는 시스템적 우월성을 주장하지 않습니다.

AI 자동 생성 콘텐츠

원문 바로가기

메모리 관리형 긴 문맥 어텐션 (Memory-Managed Long-Context Attention): 편집 가능한 요청 국소 메모리에 대한

요약

핵심 포인트

댓글