arXiv논문2026. 06. 03. 11:30

언어 모델에게도 수면이 필요하다: 자기 수정 및 기억 공고화를 학습하기

요약

인간의 학습 과정을 모방하여 LLM의 지속적 학습과 지식 전이를 개선하는 '수면(Sleep)' 패러다임을 제안합니다. 기억 공고화와 꿈꾸기라는 두 단계를 통해 단기 지식을 장기 파라미터로 증류하고 스스로를 재귀적으로 개선합니다.

핵심 포인트

기억 공고화를 통한 지식 증류 및 장기 지식 전이
꿈꾸기 단계를 통한 RL 기반의 자기 개선 메커니즘
지속적 학습 및 퓨샷 일반화 성능 향상 입증
인간의 수면 과정을 모방한 새로운 학습 프레임워크

지난 수십 년 동안 초기 작업 특화형 얕은 모델(shallow models) 연구부터 더욱 일반적인 심층 거대 언어 모델(Large Language Models, LLMs)에 이르기까지 머신러닝 알고리즘 설계 분야에서 상당한 발전이 있었습니다. 즉각적인 예측이나 인컨텍스트 학습(in-context learning)이 필요한 작업에서 유망한 결과를 보여줌에도 불구하고, 기존 모델들은 지속적으로 학습하고 시간적 인컨텍스트 지식을 장기 파라미터(long-term parameters)로 효과적으로 전이하는 능력이 부족합니다. 인간의 학습 과정에서 영감을 받아, 우리는 모델이 지속적으로 학습하고, 리플레이(replay)를 통해 취약한 단기 기억을 안정적인 장기 지식으로 증류(distill)하며, '꿈꾸기(Dreaming)' 과정을 통해 스스로를 재귀적으로 개선할 수 있도록 하는 '수면(Sleep)' 패러다임을 도입합니다. 더 자세히 설명하자면, 수면은 두 단계로 구성됩니다: (1) 기억 공고화(Memory Consolidation): 지식 시딩(Knowledge Seeding)이라 불리는 상향식 증류 과정으로, 지식을 보존하면서 더 많은 용량을 제공하기 위해 더 작은 자아(smaller-self)의 기억을 더 큰 네트워크로 증류합니다. 개념 증명으로서, 우리는 {Knowledge Seeding}(즉, 온폴리시 증류(on-policy distillation)와 강화학습(Reinforcement Learning, RL) 기반의 모방 학습(imitation learning)의 결합)을 위한 새로운 일반화된 증류(Generalized Distillation) 과정을 제시합니다; (2) 꿈꾸기(Dreaming): 모델이 RL을 사용하여 합성 데이터의 커리큘럼을 생성함으로써, 인간의 감독 없이 새로운 지식을 연습하고 기존 능력을 정교화하는 자기 개선 단계입니다. 장기적(long-horizon), 지속적 학습(continual learning), 지식 통합(knowledge incorporation) 및 퓨샷 일반화(few-shot generalization) 작업에 대한 우리의 실험은 수면 단계의 중요성을 뒷받침합니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어 모델에게도 수면이 필요하다: 자기 수정 및 기억 공고화를 학습하기

요약

핵심 포인트

댓글