치명적 망각은 저차원이다: 지속적 적응을 위한 함수 공간 이론
요약
지속적 학습 시 발생하는 치명적 망각 문제를 함수 공간(Function-space) 관점에서 분석한 연구입니다. NTK(Neural Tangent Kernel)를 활용해 망각 벡터를 예측하고, 망각이 특정 NTK 고유 모드에 집중된다는 사실을 밝혀냈습니다.
핵심 포인트
- 함수 공간 관점에서 망각 벡터에 대한 폐쇄형 예측기 산출
- 망각이 소수의 이전 태스크 NTK 고유 모드에 집중됨을 규명
- 기존 파라미터 공간 정규화의 한계와 표적 스펙트럼 정규화의 필요성 제시
- Frozen linear head 환경에서 크로네커 스케일링 규칙 제공
지속적 적응 (Continual Adaptation) 과정에서의 치명적 망각 (Catastrophic forgetting)은 보통 파라미터 드리프트 (Parameter drift), 리플레이 (Replay), 또는 증류 (Distillation)를 통해 연구되지만, 이러한 관점들은 어떤 출력 공간 (Output-space) 방향이 취약한지를 식별하지 못합니다. 우리는 NTK (Neural Tangent Kernel) 영역에서 함수 공간 (Function-space) 관점의 설명을 제공합니다. 새로운 태스크 학습은 태스크 간 커널 (Cross-task kernel)을 통해 이전 태스크의 예측 드리프트를 유도하며, 이는 새로운 태스크의 그래디언트 (Gradient) 단계가 수행되기 전에도 망각 벡터 (Forgetting vector)에 대한 폐쇄형 예측기 (Closed-form predictor)를 산출합니다. 모델이 학습 가능한 파라미터에 대해 선형적인 frozen-backbone linear-head PEFT-CL의 경우, 이 예측기는 수치적 정밀도 범위 내에서 정확합니다. 비선형 어댑터 (Nonlinear adapters) 또는 전체 미세 조정 (Full fine-tuning)의 경우, 이는 국소적 NTK 근사 (Local NTK approximation)가 됩니다. 동일한 식을 통해 망각이 소수의 이전 태스크 NTK 고유 모드 (Eigenmodes)에 집중된다는 것을 밝혀냈으며, frozen linear heads 환경에서는 취약한 랭크 (Rank)에 대한 크로네커 스케일링 규칙 (Kronecker scaling rule)을 제공합니다. 이러한 결과들은 기존의 NTK-중첩 이론 (NTK-overlap theory)과의 관계를 명확히 하고, 왜 파라미터 공간 정규화 도구 (Parameter-space regularizers)가 출력 공간 간섭 (Output-space interference)을 놓칠 수 있는지 설명하며, 표적 스펙트럼 정규화 도구 (Targeted spectral regularizer)의 필요성을 뒷받침합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기