본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 05:35

연속 학습에서 Adam 을 위한 경량 수정의 숨겨진 실패 모드와 적응적 디커플링 모멘트 라우팅을 통한 복구

요약

본 논문은 연속 학습(Continual Learning)에서 Adam 최적화기를 사용하는 여러 기법들이 숨겨진 실패 모드를 가지고 있음을 보여줍니다. 특히 고중첩 환경에서 공유 라우팅 투영 기반의 방법들은 성능이 크게 저하되는 경향을 보입니다. 연구진은 이 문제를 Adam의 2차 모멘트 경로가 이전 방향의 유효 학습률에 과도한 확장을 유도하기 때문임을 밝혀냈으며, 이를 해결하기 위해 수정된 기울기를 1차 모멘트에만 라우팅하고 적응적 디커플링 강도를 적용하는 새로운 방법을 제안했습니다. 이 방법은 기존 방식들이 실패했던 다양한 설정에서 안정적인 성능 개선을 입증했습니다.

핵심 포인트

  • 연속 학습(CL)에서 Adam 기반의 기울기 수정 기법들은 고중첩 환경에서 숨겨진 성능 저하(실패 모드)를 겪는다.
  • 이 실패는 Adam 최적화기의 2차 모멘트 경로가 이전 방향의 유효 학습률에 과도한 확장을 일으키기 때문에 발생한다.
  • 제안된 해결책은 수정된 기울기를 1차 모멘트에만 라우팅하고, 크기 충실한 2차 모멘트 통계를 유지하며 적응적 디커플링 강도를 적용하는 것이다.
  • 이 방법론은 기존의 공유 라우팅 투영이나 리플레이 믹싱 등 다양한 CL 기법들이 실패했던 환경에서 일관되게 성능을 개선한다.

많은 연속 학습 (continual-learning) 방법들은 업스트림 (upstream) 에서 기울기를 수정 (예: 투영, 페널티 재스케일링, 리플레이 믹싱) 하면서 Adam 을 중립적인 백엔드로 취급합니다. 우리는 이 조합에는 숨겨진 실패 모드가 있음을 보여줍니다. 고중첩 (high-overlap), 비적응형 8 도메인 연속 LM 에서 모든 공유 라우팅 투영 베이스라인은 바닐라 망각에 가깝게 붕괴합니다 (12.5--12.8 대 13.2). 0.5% 리플레이 버퍼는 가장 강력한 공유 대안이나 여전히 11.6 에 도달하며, 고정 강도의 디커플링은 14.1 로 바닐라보다 낮아집니다. 오직 적응적 디커플링 라우팅만이 9.4 로 안정적으로 유지되어 바닐라 대비 3.8 단위를 개선합니다. 16 도메인 스트림에서는 가장 강력한 공유 라우팅 투영 베이스라인에 대한 그 이득이 4.5--4.8 단위로 커집니다. 이 실패는 깨끗한 벤치마크에서는 대부분 눈에 띄지 않습니다. 우리는 이 효과를 Adam 의 2 차 모멘트 경로 (second-moment pathway) 를 통해 설명합니다: 테스트된 영역에서 투영은 이전 방향의 유효 학습률에 1/(1-alpha) 팽창을 유도하며, 이는 8 개의 알파 값에서 8% 이내로 측정값과 일치합니다. 동일한 충돌은 페널티 방법, 리플레이 믹싱 및 LoRA 하의 7B 규모에서도 나타납니다. 우리의 해결책은 수정된 기울기를 오직 1 차 모멘트에만 라우팅하고 크기 충실한 2 차 모멘트 통계를 유지하며, 중첩 인식 적응적 강도를 적용합니다. 이 간단한 변경은 방법, 옵티마이저, 규모를 일관되게 붕괴를 피하는 유일한 테스트된 구성입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0