arXiv논문2026. 05. 22. 11:20

Critic을 잊지 마세요: 다중 주기적 연속 강화학습 (Multi-Cyclic Continual Reinforcement Learning)을

요약

연속 강화학습(CRL)에서 발생하는 치명적 망각을 해결하기 위해 Critic 정규화를 활용한 새로운 데이터 리허설 방식을 제안합니다. 다중 주기적 환경에서 Q-값 정규화를 사용하는 Qreg+NWLU 기법을 통해 학습 효율성과 지식 전이 성능을 개선했습니다.

핵심 포인트

Actor 중심 정규화의 한계를 극복하기 위해 Critic 정규화 도입
다중 주기적 환경에서의 망각 및 가소성 문제 해결 시도
Q-값을 동적으로 업데이트하는 연속적 데이터 리허설 제안
즉각적인 적용을 위한 No-Wait 정규화 방식 도입
기존 CRL 방법 대비 학습 효율 및 지식 전이 성능 향상

데이터 리허설 (Data rehearsal)은 연속 강화학습 (Continual Reinforcement Learning, CRL)에서 발생하는 치명적 망각 (catastrophic forgetting)을 완화하기 위한 주요 접근 방식으로 부상했습니다. 그러나 기존 연구들은 정책 경사 (policy gradient) 프레임워크에 국한되어 있으며, Critic 정규화 (critic regularization)로 인해 발생하는 성능 저하로 인해 Actor만을 정규화하고 있습니다. 이러한 Actor 중심의 접근 방식은 가치 함수 근사 (value function approximation)를 위한 데이터 리허설의 잠재력을 간과합니다. 또한, CRL에 대한 기존 평가들은 작업 시퀀스가 반복되는 다중 주기적 (multi-cyclic) 환경을 거의 고려하지 않는데, 이는 망각과 가소성 (plasticity) 문제를 악화시키는 중요한 실제 시나리오입니다. 본 연구에서는 다중 주기적 설정에서 Q-값 정규화 (Q-value regularization)를 사용하는 Deep Q-Networks (DQN)를 위한 데이터 리허설을 조사하고, 두 가지 간단한 수정을 도입한 Qreg+NWLU를 제안합니다: (1) 훈련 전반에 걸쳐 저장된 Q-값을 동적으로 수집하고 업데이트하는 연속적 데이터 리허설 (continuous data rehearsal), 그리고 (2) 첫 번째 작업 이후가 아닌 즉시 적용되는 "No-Wait" 정규화 (No-Wait regularization)입니다. 이러한 수정 사항들은 가치 함수 근사 설정 내에서 Qreg 및 기존 CRL 방법들보다 학습 효율성, 망각 완화 및 지식 전이 (knowledge transfer) 측면에서 개선된 결과를 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Critic을 잊지 마세요: 다중 주기적 연속 강화학습 (Multi-Cyclic Continual Reinforcement Learning)을

요약

핵심 포인트

댓글