arXiv논문2026. 05. 14. 04:22

빠르고 느린 학습: 지속적으로 적응하는 LLM을 향하여

요약

본 글은 LLM의 적응성 문제를 다루며, 기존의 파라미터 업데이트 방식(치명적 망각 위험)과 인컨텍스트 학습(성능 한계)의 단점을 극복하는 새로운 'fast-slow 학습 프레임워크'를 제안합니다. 이 프레임워크는 모델 매개변수를 '느린 가중치'(Slow Weights, 일반 추론 담당)와 최적화된 컨텍스트로부터 학습되는 '빠른 가중치'(Fast Weights, 태스크 특화 정보 흡수 담당)로 분리하여 관리합니다. Fast-Slow Training (FST)은 높은 샘플 효율성과 성능 점근선을 유지하면서도 치명적 망각을 최소화하고 지속적인 학습 능력을 보존하는 것이 핵심입니다.

핵심 포인트

Fast-Slow Training (FST) 프레임워크를 통해 LLM의 적응성 문제를 해결합니다.
모델 매개변수를 일반 추론에 사용되는 '느린 가중치'와 태스크 특화 정보 학습에 사용되는 '빠른 가중지'로 분리하여 관리합니다.
FST는 기존 RL 방식보다 최대 3배 높은 샘플 효율성을 보이며, 더 높은 성능 점근선에 도달합니다.
FST를 통해 치명적 망각(catastrophic forgetting)을 줄이고 가소성(plasticity)을 효과적으로 보존하여 지속적인 학습(continual learning) 시나리오에서 우수합니다.

대규모 언어 모델 (LLMs)은 매개변수(parameters)를 업데이트함으로써 (예: RL을 통해) 다운스트림 태스크(downstream tasks)를 위해 학습됩니다. 그러나 매개변수를 업데이트하는 것은 모델이 태스크 특화 정보를 흡수하도록 강제하며, 이는 치명적 망각 (catastrophic forgetting)과 가소성 (plasticity)의 상실을 초래할 수 있습니다. 반면, 고정된 LLM 매개변수를 사용하는 인컨텍스트 학습 (in-context learning)은 태스크 특화 요구사항에 저렴하고 빠르게 적응할 수 있지만 (예: 프롬프트 최적화), 일반적으로 LLM 매개변수 업데이트를 통해 얻을 수 있는 성능 향상에는 미치지 못합니다. 학습을 인컨텍스트 (in-context) 또는 가중치 내부 (in-weights) 중 하나로만 제한할 이유는 없습니다. 더욱이, 인간 또한 서로 다른 시간 척도 (예: System 1 vs 2)로 학습할 가능성이 높습니다. 이를 위해, 우리는 모델 매개변수를 "느린" 가중치 (slow weights)로, 최적화된 컨텍스트를 "빠른" 가중치 (fast weights)로 하는 LLM을 위한 fast-slow 학습 프레임워크를 소개합니다. 이러한 빠른 "가중치"는 텍스트 피드백으로부터 학습하여 태스크 특화 정보를 흡수할 수 있는 반면, 느린 가중치는 베이스 모델 (base model)에 더 가깝게 유지되면서 일반적인 추론 동작을 지속할 수 있게 합니다. Fast-Slow Training (FST)은 추론 태스크 전반에서 느린 학습 (RL)만 수행할 때보다 최대 3배 더 높은 샘플 효율성 (sample-efficient)을 보이며, 일관되게 더 높은 성능 점근선 (performance asymptote)에 도달합니다. 또한, FST로 학습된 모델은 베이스 LLM에 더 가깝게 유지되어 (KL 발산 (KL divergence) 최대 70% 감소), RL 학습보다 치명적 망각이 적게 발생합니다. 이러한 드리프트 (drift) 감소는 가소성 (plasticity) 또한 보존합니다. 즉, 하나의 태스크에 대해 학습한 후, FST로 학습된 모델은 매개변수만 학습된 모델보다 후속 태스크에 더 효과적으로 적응합니다. 태스크 도메인이 즉각적으로 변하는 지속적 학습 (continual learning) 시나리오에서, 매개변수 전용 RL은 정체되는 반면 FST는 각 새로운 태스크를 계속해서 습득합니다.

AI 자동 생성 콘텐츠

원문 바로가기

빠르고 느린 학습: 지속적으로 적응하는 LLM을 향하여

요약

핵심 포인트

댓글