HN분석2026. 05. 28. 10:28

언어 모델에 잠이 필요할까? 온라인 추론 개선을 위한 오프라인 재귀 (Offline Recurrence)

요약

Transformer 기반 LLM의 컨텍스트 확장성 문제를 해결하기 위해 '잠(sleep)'과 유사한 오프라인 재귀 메커니즘을 제안합니다. 모델이 휴식기에 컨텍스트를 빠른 가중치로 변환하여 상태 공간 모델(SSM)을 업데이트함으로써, 추론 시 지연 시간을 유지하면서도 성능을 향상시킵니다.

핵심 포인트

컨텍스트 길이에 따른 어텐션 메커니즘의 확장성 문제 해결
오프라인 재귀 패스를 통한 키-값 캐시의 빠른 가중치 변환
추론 시 예측 지연 시간(latency)을 보존하는 구조
수학적 추론 및 합성 작업에서 성능 향상 입증

컴퓨터 과학 (Computer Science) > 계산 및 언어 (Computation and Language)

제목: 언어 모델에 잠이 필요할까? 온라인 추론 개선을 위한 오프라인 재귀 (Offline Recurrence)

PDF HTML 보기 (실험적) 초록: Transformer 기반의 대규모 언어 모델 (LLMs)은 긴 호흡의 작업 (long-horizon tasks)에 점점 더 많이 사용되고 있지만, 이들의 어텐션 메커니즘 (attention mechanism)은 컨텍스트 길이 (context length)에 따라 확장성이 떨어집니다. 이를 해결하기 위해, 우리는 모델이 키-값 캐시 (key-value cache)를 비우기 전에 최근의 컨텍스트를 영구적인 빠른 가중치 (fast weights)로 주기적으로 변환하는 잠과 유사한 통합 메커니즘 (sleep-like consolidation mechanism)을 연구합니다. 잠을 자는 동안, 모델은 축적된 컨텍스트에 대해 $N$번의 오프라인 재귀 패스 (offline recurrent passes)를 수행하며, 학습된 로컬 규칙 (learned local rule)을 통해 상태 공간 모델 (SSM) 블록의 빠른 가중치를 업데이트합니다. 추론 (inference) 시에는 이 방식이 추가적인 계산을 잠자는 시간으로 전환하면서도, 깨어 있는 시간의 예측 지연 시간 (latency)을 보존합니다. 우리는 세포 자동자 (cellular automata) 및 멀티홉 그래프 검색 (multi-hop graph retrieval)을 포함한 통제된 합성 작업(synthetic tasks)뿐만 아니라, 일반적인 Transformer 및 SSM-attention 하이브리드 모델이 실패하는 현실적인 수학적 추론 작업에서도 우리의 방법을 테스트합니다. 그런 다음, 우리 모델의 잠 자는 시간 $N$을 늘리면 성능이 향상됨을 보여주며, 더 깊은 추론을 요구하는 예시에서 가장 큰 이득을 얻음을 확인했습니다.

서지 및 인용 도구

이 논사와 관련된 코드, 데이터 및 미디어

데모

arXivLabs: 커뮤니티 협력자와 함께하는 실험적 프로젝트

arXivLabs는 협력자들이 우리 웹사이트에서 직접 새로운 arXiv 기능을 개발하고 공유할 수 있도록 하는 프레임워크입니다.

arXivLabs와 함께 활동하는 개인 및 조직은 개방성, 커뮤니티, 탁월함, 그리고 사용자 데이터 프라이버시라는 우리의 가치를 수용하고 받아들였습니다. arXiv는 이러한 가치에 전념하며, 이를 준수하는 파트너와만 협력합니다.

arXiv 커뮤니티에 가치를 더할 프로젝트 아이디어가 있나요? arXivLabs에 대해 더 알아보기.

AI 자동 생성 콘텐츠

원문 바로가기