arXiv논문2026. 06. 09. 11:11

Drift-Plus-Penalty를 통한 지속 학습 (Continual Learning)의 이론적 토대

요약

본 논문은 지속 학습(Continual Learning)의 치명적 망각 문제를 해결하기 위해 제어 이론적 관점을 도입한 COLD 프레임워크를 제안합니다. Drift-Plus-Penalty 원칙을 활용하여 안정성과 가소성 사이의 트레이드오프를 동적으로 조절하며, 기존 방법론보다 우수한 성능을 입증했습니다.

핵심 포인트

제어 이론을 활용한 지속 학습의 새로운 프레임워크 COLD 제안
Drift-Plus-Penalty 원칙을 통한 망각 현상의 명시적 조절
가상 큐(Virtual Queue)를 이용한 안정성-가소성 트레이드오프 관리
기존 최신 지속 학습 방법론 대비 우수한 성능 및 제어 가능성 확인

많은 실제 환경에서 데이터 스트림은 비정상성 (nonstationary)을 띠며 순차적으로 도착하므로, 학습 시스템이 처음부터 다시 학습하지 않고도 지속적으로 적응할 수 있어야 합니다. 지속 학습 (Continual Learning, CL)은 새로운 정보를 학습할 때 이전에 습득한 지식에 대한 성능이 저하되는 치명적 망각 (catastrophic forgetting)을 완화하면서 새로운 태스크를 통합함으로써 이 과제를 해결합니다. 본 논문에서는 망각의 진화를 명시적으로 조절하고, 적응을 장기적 안정성 제약 조건 하에 있는 제어된 프로세스로 프레이밍함으로써 CL에 대한 제어 이론적 (control-theoretic) 관점을 도입합니다. 우리는 유한한 메모리 버퍼에 이전 태스크의 대표 샘플을 저장하는 리플레이 기반 (replay-based) CL에 집중합니다. 우리는 확률적 최적화 (stochastic optimization)의 Drift-Plus-Penalty (DPP) 원칙에 기반한 지속 학습 프레임워크인 COntinual Learning with Drift-Plus-Penalty (COLD)를 제안합니다. 분석을 용이하게 하기 위해, 참조 벤치마크로서 오라클 변형 모델인 COLD-ORACLE도 고려합니다. 각 태스크에서 두 방법 모두 현재 태스크의 손실 (loss)을 최소화하는 동시에, 이전에 학습된 태스크에 대한 장기적 안정성으로부터의 편차를 추적하는 가상 큐 (virtual queue)를 유지하며, 이를 통해 안정성-가소성 트레이드오프 (stability-plasticity trade-off)를 조절 가능한 동적 프로세스로 포착합니다. 우리는 조절 가능한 제어 파라미터를 통해 이 트레이드오프를 특징짓는 안정성 및 수렴 보장을 확립합니다. 표준 벤치마크에 대한 실험을 통해 COLD가 안정성과 가소성을 명시적으로 조절함으로써 경쟁력 있고 제어 가능한 망각 동작을 제공하는 동시에, 광범위한 최신 CL 방법들을 일관되게 능가함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Drift-Plus-Penalty를 통한 지속 학습 (Continual Learning)의 이론적 토대

요약

핵심 포인트

댓글