arXiv논문2026. 05. 26. 12:48

언어 모델에게는 수면이 필요하다

요약

Transformer 기반 LLM의 컨텍스트 확장성 문제를 해결하기 위해 수면과 유사한 통합 메커니즘을 제안합니다. 최근 컨텍스트를 빠른 가중치로 변환하여 추론 시 지연 시간을 보존하면서도 장기적 과업 수행 능력을 높입니다.

핵심 포인트

키-값 캐시를 빠른 가중치로 변환하는 수면 메커니즘 제안
오프라인 순환 패스를 통한 상태 공간 모델(SSM) 가중치 업데이트
추론 시 지연 시간(Latency)을 보존하며 컨텍스트 확장성 확보
수학적 추론 및 합성 태스크에서 성능 향상 입증

Transformer 기반 대규모 언어 모델 (Large Language Models, LLMs)은 장기적 과업 (Long-horizon tasks)에 점점 더 많이 사용되고 있지만, 이들의 어텐션 메커니즘 (Attention mechanism)은 컨텍스트 길이 (Context length)에 따라 확장성이 떨어집니다. 이를 해결하기 위해, 본 연구에서는 모델이 키-값 캐시 (Key-value cache)를 비우기 전에 최근의 컨텍스트를 영구적인 빠른 가중치 (Fast weights)로 주기적으로 변환하는 수면과 유사한 통합 메커니즘 (Consolidation mechanism)을 연구합니다. 수면 동안 모델은 축적된 컨텍스트에 대해 $N$번의 오프라인 순환 패스 (Offline recurrent passes)를 수행하며, 학습된 로컬 규칙 (Learned local rule)을 통해 상태 공간 모델 (State-space model, SSM) 블록의 빠른 가중치를 업데이트합니다. 추론 (Inference) 시, 이는 추가적인 연산을 수면 시간으로 전환하면서도 깨어 있는 시간 (Wake-time)의 예측 지연 시간 (Latency)을 보존합니다. 우리는 셀룰러 오토마타 (Cellular automata) 및 멀티홉 그래프 검색 (Multi-hop graph retrieval)을 포함한 통제된 합성 태스크 (Synthetic tasks)와, 일반적인 Transformer 및 SSM-Attention 하이브리드 모델이 실패하는 현실적인 수학적 추론 (Math reasoning) 태스크에서 우리의 방법을 테스트합니다. 이후 모델의 수면 시간 $N$을 늘리는 것이 성능을 향상시킨다는 것을 보여주며, 특히 더 깊은 추론이 필요한 예시에서 가장 큰 이득을 얻음을 확인합니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어 모델에게는 수면이 필요하다

요약

핵심 포인트

댓글