arXiv논문2026. 06. 09. 12:49

동적 등거리성 (Dynamical Isometry)을 통한 지속 학습 (Continual Learning)에서의 가소성 (Plasticity)

요약

비정상성 환경에서 심층 신경망의 가소성 상실 문제를 해결하기 위해 동적 등거리성(Dynamical Isometry)을 핵심 메커니즘으로 제안합니다. 등거리성 촉진 정규화와 새로운 옵티마이저인 AdamO를 통해 지속 학습 성능을 개선하는 방법을 다룹니다.

핵심 포인트

동적 등거리성을 통한 지속 학습 시 가소성 보존 메커니즘 식별
근사적 동적 등거리성과 비선형 표현력의 양립 가능성 입증
효율적인 등거리성 촉진 정규화 기법 및 AdamO 옵티마이저 제안
지도 학습 및 강화 학습 벤치마크에서 기존 방식 대비 우수한 성능 확인

비정상성 (non-stationarity) 환경 하에서 심층 신경망 (deep neural networks)을 지속적으로 학습시키는 것은 종종 점진적인 가소성 (plasticity) 상실로 이어지며, 결과적으로 추가적인 학습을 제한하게 됩니다. 본 연구에서는 가소성을 경험적 신경 탄젠트 커널 (empirical Neural Tangent Kernel)과 연관 지으며, 동적 등거리성 (dynamical isometry, 레이어별 자코비안 (Jacobian) 특이값이 1에 가깝게 유지되는 조건)을 지속 학습에서 가소성을 보존하기 위한 핵심 메커니즘으로 식별합니다. 우리는 보편적 립시츠 함수 근사기 (universal Lipschitz function approximators)로서의 기능을 유지하면서도 거의 모든 곳에서 등거리성을 갖는 네트워크 클래스를 재검토하여, 근사적 동적 등거리성 (near-dynamical isometry)이 표현력이 풍부한 비선형 표현 (nonlinear representations)과 양립 가능함을 입증합니다. 일반적인 아키텍처를 위해, 우리는 효율적인 등거리성 촉진 정규화 (isometry-promoting regularization) 기법을 제안하고, 이것이 휴면 상태의 ReLU 유닛을 재활성화할 수 있는 새로운 메커니즘을 식별합니다. 이를 바탕으로, 우리는 AdamW와 유사하게 등거리성 정규화를 그래디언트 (gradient) 업데이트로부터 분리하는 Adam 스타일의 적응형 옵티마이저 (adaptive optimizer)인 AdamO를 도입합니다. 나아가 우리는 기존의 가소성 보존 접근 방식들을 동적 등거리성의 관점에서 재해석하여, 해당 방식들이 등거리성의 부분적인 척도만을 목표로 하고 있음을 보여줍니다. 가소성 상실을 유도하도록 설계된 지도 학습 (supervised learning) 및 강화 학습 (reinforcement learning) 지속 학습 벤치마크 전반에 걸쳐, 우리의 방법론은 기존 방식들과 일관되게 대등하거나 이를 능가하는 성능을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

동적 등거리성 (Dynamical Isometry)을 통한 지속 학습 (Continual Learning)에서의 가소성 (Plasticity)

요약

핵심 포인트

댓글