arXiv논문2026. 06. 08. 10:54

태스크 불가지론적 지속 학습을 위한 희소 부분 공간-전문가 공유 (Sparse Subspace-to-Expert Sharing)

요약

LLM의 파괴적 망각 문제를 해결하기 위해 태스크별 고유 전문가와 공유 전문가를 분리하는 SETA 프레임워크를 제안합니다. 적응형 희소 부분 공간 분해를 통해 가소성과 안정성 사이의 딜레마를 극복하고 지식 유지 및 전이 성능을 높였습니다.

핵심 포인트

SETA 프레임워크를 통한 태스크 불가지론적 지속 학습 구현
고유 전문가와 공유 전문가 분리로 지식 간섭 최소화
적응형 탄성 앵커링 및 라우팅 인식 정규화 적용
LLaMA-2 및 Qwen 모델에서 강력한 지식 유지 성능 입증

대규모 언어 모델 (LLMs)에서의 지속 학습 (Continual learning)은 새로운 능력을 습득할 때 종종 이전 지식의 파괴적 망각 (Catastrophic forgetting)으로 이어지는 가소성-안정성 딜레마 (Plasticity-stability dilemma)에 의해 저해됩니다. 기존 방법들은 일반적으로 파라미터를 균일하게 취급하며, 특정 태스크 지식과 공유된 능력 사이를 구분하지 못합니다. 우리는 태스크 불가지론적 지속 학습을 위한 희소 전문가 혼합 (Mixture of Sparse Experts for Task Agnostic Continual Learning, SETA)을 소개합니다. 이는 태스크별 전문가 모듈로의 적응형 희소 부분 공간 분해 (Adaptive sparse subspace decomposition)를 통해 가소성-안정성 갈등을 해결하는 프레임워크입니다. 태스크들이 동일한 파라미터를 두고 경쟁하는 표준적인 업데이트와 달리, SETA는 지식을 태스크별 패턴을 격리하도록 설계된 고유 전문가 (Unique experts)와 공통 특징을 포착하는 역할을 하는 공유 전문가 (Shared experts)로 분리합니다. 이러한 구조는 적응형 탄성 앵커링 (Adaptive elastic anchoring)과 라우팅 인식 정규화 (Routing-aware regularization)를 통해 유지됩니다. 이는 가중치와 라우팅 수준 모두에서 공유 지식을 공동으로 보호하며, 추론 중에 통합 게이팅 네트워크 (Unified gating network)가 올바른 전문가 조합을 자동으로 검색할 수 있도록 합니다. 다양한 도메인별 벤치마크에 걸친 광범위한 실험을 통해, SETA가 최신 지속 학습 베이스라인 대비 경쟁력 있거나 우수한 전반적 성능을 달성함을 입증하였으며, 특히 LLaMA-2 7B 및 Qwen3-4B에서 초기 태스크 지식의 강력한 유지와 향상된 역방향 전이 (Backward transfer) 성능을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

태스크 불가지론적 지속 학습을 위한 희소 부분 공간-전문가 공유 (Sparse Subspace-to-Expert Sharing)

요약

핵심 포인트

댓글