arXiv논문2026. 04. 28. 05:35

연속 학습에서 Adam 을 위한 경량 수정의 숨겨진 실패 모드와 적응적 디커플링 모멘트 라우팅을 통한 복구

요약

본 논문은 연속 학습(Continual Learning)에서 Adam 최적화기를 사용하는 여러 기법들이 숨겨진 실패 모드를 가지고 있음을 보여줍니다. 특히 고중첩 환경에서 공유 라우팅 투영 기반의 방법들은 성능이 크게 저하되는 경향을 보입니다. 연구진은 이 문제를 Adam의 2차 모멘트 경로가 이전 방향의 유효 학습률에 과도한 확장을 유도하기 때문임을 밝혀냈으며, 이를 해결하기 위해 수정된 기울기를 1차 모멘트에만 라우팅하고 적응적 디커플링 강도를 적용하는 새로운 방법을 제안했습니다. 이 방법은 기존 방식들이 실패했던 다양한 설정에서 안정적인 성능 개선을 입증했습니다.

핵심 포인트

연속 학습(CL)에서 Adam 기반의 기울기 수정 기법들은 고중첩 환경에서 숨겨진 성능 저하(실패 모드)를 겪는다.
이 실패는 Adam 최적화기의 2차 모멘트 경로가 이전 방향의 유효 학습률에 과도한 확장을 일으키기 때문에 발생한다.
제안된 해결책은 수정된 기울기를 1차 모멘트에만 라우팅하고, 크기 충실한 2차 모멘트 통계를 유지하며 적응적 디커플링 강도를 적용하는 것이다.
이 방법론은 기존의 공유 라우팅 투영이나 리플레이 믹싱 등 다양한 CL 기법들이 실패했던 환경에서 일관되게 성능을 개선한다.

많은 연속 학습 (continual-learning) 방법들은 업스트림 (upstream) 에서 기울기를 수정 (예: 투영, 페널티 재스케일링, 리플레이 믹싱) 하면서 Adam 을 중립적인 백엔드로 취급합니다. 우리는 이 조합에는 숨겨진 실패 모드가 있음을 보여줍니다. 고중첩 (high-overlap), 비적응형 8 도메인 연속 LM 에서 모든 공유 라우팅 투영 베이스라인은 바닐라 망각에 가깝게 붕괴합니다 (12.5--12.8 대 13.2). 0.5% 리플레이 버퍼는 가장 강력한 공유 대안이나 여전히 11.6 에 도달하며, 고정 강도의 디커플링은 14.1 로 바닐라보다 낮아집니다. 오직 적응적 디커플링 라우팅만이 9.4 로 안정적으로 유지되어 바닐라 대비 3.8 단위를 개선합니다. 16 도메인 스트림에서는 가장 강력한 공유 라우팅 투영 베이스라인에 대한 그 이득이 4.5--4.8 단위로 커집니다. 이 실패는 깨끗한 벤치마크에서는 대부분 눈에 띄지 않습니다. 우리는 이 효과를 Adam 의 2 차 모멘트 경로 (second-moment pathway) 를 통해 설명합니다: 테스트된 영역에서 투영은 이전 방향의 유효 학습률에 1/(1-alpha) 팽창을 유도하며, 이는 8 개의 알파 값에서 8% 이내로 측정값과 일치합니다. 동일한 충돌은 페널티 방법, 리플레이 믹싱 및 LoRA 하의 7B 규모에서도 나타납니다. 우리의 해결책은 수정된 기울기를 오직 1 차 모멘트에만 라우팅하고 크기 충실한 2 차 모멘트 통계를 유지하며, 중첩 인식 적응적 강도를 적용합니다. 이 간단한 변경은 방법, 옵티마이저, 규모를 일관되게 붕괴를 피하는 유일한 테스트된 구성입니다.

AI 자동 생성 콘텐츠

원문 바로가기

연속 학습에서 Adam 을 위한 경량 수정의 숨겨진 실패 모드와 적응적 디커플링 모멘트 라우팅을 통한 복구

요약

핵심 포인트

댓글