생성 모델의 학습 및 암기 현상에 대한 역학계 관점의 분석
요약
본 논문은 생성 모델에서 발생하는 암기(memorization) 현상을 역학계(dynamical systems) 관점에서 분석하여 시스템 이론적 설명을 제공합니다. SGD(stochastic gradient descent)의 두 가지 시간 척도 역학 및 붕괴(collapse) 현상을 결합하여, 학습 과정 중 모델이 유사한 출력을 반복 생성하는 메커니즘을 수학적으로 규명합니다.
핵심 포인트
- SGD의 일정한 단계 크기(constant step size)가 두 개의 뚜렷한 시간 척도를 유발함을 분석
- 손실 함수가 특정 변수에 강하게 의존하는 정형화된 모델을 통해 암기 현상 설명
- SGD의 붕괴(collapse) 현상과 암기 현상 사이의 수학적 상관관계 제시
- 역학계 관점을 통한 머신러닝 내 주요 현상들의 통합적 시각 제공
저자 중 한 명(VSB)의 생성 모델에서의 붕괴(collapse) 및 고차원 확률적 경사 하강법(stochastic gradient descent, SGD)에서의 두 가지 시간 척도 역학(two time scale dynamics)에 관한 최근 연구들을 활용하여, 생성 모델에서의 암기(memorization) 현상에 대한 시스템 이론적(system theoretic) 설명을 제공합니다. 이는 순수하게 학습 단계의 역학적 측면에 의존합니다. 구체적으로, 우리는 Austin [2016]의 결과를 사용하여, 손실 함수(loss function)가 정밀한 의미에서 일부 변수에는 강한 의존성을 갖고 나머지 변수에는 약한 의존성을 갖는 확률적 경사 하강법(SGD)을 위한 정형화된 모델(stylized model)을 도출합니다. 이는 머신러닝(machine learning)에서 흔히 사용되는 일정한 단계 크기(constant step size) SGD에서 자연스럽게 두 개의 뚜렷한 시간 척도로 이어집니다. 이러한 사실은 Borkar [2026]에서 SGD의 이중 하강(double descent) 현상을 설명하는 데 사용되었습니다. Borkar [2025a]에서 개발된 SGD에서의 붕괴(collapse) 현상에 대한 수학적 모델과 결합하여, 우리는 Azizian et al. [2024]의 최근 결과들을 사용하여 일정한 단계 크기 SGD를 분석함으로써, 동시에 튜닝되고 있는 생성 모델이 상당한 시간 동안 동일하거나 유사한 출력을 생성하는 암기(memorization) 현상을 설명하고자 합니다. 이는 역학계(dynamical systems) 관점을 사용하여 머신러닝 문헌에 보고된 앞서 언급한 현상들과 그 상호 관계에 대한 새로운 시각을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG (Machine Learning)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기