Reddit요약2026. 05. 17. 01:25

빠르고 느린 학습: 지속적으로 적응하는 LLM을 향하여 [R]

요약

본 논문은 LLM의 학습 방식에 대한 한계를 극복하기 위해 'fast-slow 학습 프레임워크(FST)'를 제안합니다. 기존의 파라미터 업데이트 기반 학습은 치명적 망각을 유발하고, 인컨텍스트 러닝만으로는 성능 향상에 한계가 있습니다. FST는 모델 파라미터를 일반적인 추론 행동을 유지하는 '느린 가중치(slow weights)'와 태스크 특화 정보를 흡수하는 '빠른 가중치(fast weights)'로 분리하여 학습합니다. FST를 통해 학습된 모델은 기존 RL 방식보다 샘플 효율성이 높고 성능 점근선이 높아지며, 베이스 LLM과의 유사성을 유지하여 치명적 망각을 줄이고 후속 태스크에 대한 가소성(plasticity)까지 보존할 수 있습니다.

핵심 포인트

FST는 모델 파라미터를 '느린 가중치'와 '빠른 가중치'로 분리하여 학습하는 프레임워크이다.
이 방식은 기존 RL 기반 학습의 치명적 망각 문제를 해결하고, 베이스 모델에 가까운 일반 추론 능력을 유지한다.
FST는 샘플 효율성이 높고(최대 3배), 더 높은 성능 점근선에 도달하며 가소성까지 보존한다.
지속적 학습 시나리오에서 FST는 새로운 태스크를 지속적으로 습득하여 파라미터만 사용하는 RL보다 우수하다.

대규모 언어 모델 (LLMs)은 파라미터 (parameters)를 업데이트함으로써 (예: RL을 통해) 다운스트림 태스크 (downstream tasks)를 위해 학습됩니다. 그러나 파라미터를 업데이트하는 것은 모델이 태스크 특화 정보를 흡수하도록 강제하며, 이는 치명적 망각 (catastrophic forgetting)과 가소성 (plasticity)의 상실로 이어질 수 있습니다. 이와 대조적으로, 고정된 LLM 파라미터를 사용하는 인컨텍스트 러닝 (in-context learning)은 태스크 특화 요구 사항에 저렴하고 빠르게 적응할 수 있지만 (예: 프롬프트 최적화), 일반적으로 LLM 파라미터 업데이트를 통해 얻을 수 있는 성능 향상에는 미치지 못합니다. 학습을 인컨텍스트 (in-context)로만 제한하거나 가중치 내부 (in-weights)로만 제한할 타당한 이유는 없습니다. 더욱이, 인간 또한 서로 다른 시간 척도 (time scales)로 학습할 가능성이 높습니다 (예: System 1 vs 2). 이를 위해, 우리는 모델 파라미터를 "느린" 가중치 (slow weights)로, 최적화된 컨텍스트를 "빠른" 가중치 (fast weights)로 하는 LLM을 위한 fast-slow 학습 프레임워크를 소개합니다. 이러한 빠른 "가중치"는 텍스트 피드백으로부터 학습하여 태스크 특화 정보를 흡수할 수 있는 반면, 느린 가중치는 베이스 모델 (base model)에 더 가깝게 유지되면서 일반적인 추론 행동을 지속할 수 있게 합니다. Fast-Slow Training (FST)은 추론 태스크 전반에서 느린 학습 (RL)만 수행할 때보다 최대 3배 더 높은 샘플 효율성 (sample-efficient)을 보이며, 일관되게 더 높은 성능 점근선 (performance asymptote)에 도달합니다. 또한, FST로 학습된 모델은 베이스 LLM에 더 가깝게 유지되며 (KL divergence가 최대 70% 적음), 이는 RL 학습보다 치명적 망각이 적음을 의미합니다. 이러한 드리프트 (drift) 감소는 가소성 (plasticity) 또한 보존합니다. 즉, 하나의 태스크에 대해 학습한 후, FST로 학습된 모델은 파라미터만 학습된 모델보다 후속 태스크에 더 효과적으로 적응합니다. 태스크 도메인이 즉각적으로 변하는 지속적 학습 (continual learning) 시나리오에서, 파라미터만 사용하는 RL은 정체되는 반면 FST는 각 새로운 태스크를 계속해서 습득합니다.

https://arxiv.org/abs/2605.12484v1

AI 자동 생성 콘텐츠

원문 바로가기

빠르고 느린 학습: 지속적으로 적응하는 LLM을 향하여 [R]

요약

핵심 포인트

댓글