KAN-CL: Kolmogorov-Arnold Networks를 이용한 지속 학습 (Continual Learning)을 위한 매듭별 중요도
요약
KAN-CL은 Kolmogorov-Arnold Networks(KANs)의 스플라인 파라미터화 특성을 활용하여 지속 학습 시 발생하는 치명적 망각 문제를 해결하는 새로운 프레임워크입니다. 매듭(Knot) 단위의 세밀한 중요도 가중 앵커링과 백본 정규화(bbEWC)를 결합하여, 기존 방식 대비 망각을 획기적으로 감소시키고 높은 정확도를 유지합니다.
핵심 포인트
- KAN의 컴팩트 서포트 스플라인 특성을 이용해 매듭(Knot) 단위의 정밀한 중요도 가중 앵커링 수행
- Split-CIFAR 벤치마크에서 기존 베이스라인 대비 최대 93%의 망각 감소 달성
- Neural Tangent Kernel(NTK) 분석을 통해 KAN의 스플라인 국소성이 구조적 랭크 결손을 유도함을 입증
- 아키텍처의 국소성과 백본 정규화기를 결합한 구성적이고 원칙적인 망각 방지 접근법 제시
치명적 망각 (Catastrophic forgetting)은 지속 학습 (Continual Learning, CL)에서 여전히 핵심적인 장애물로 남아 있습니다. 태스크 전반에 걸쳐 공유되는 파라미터들이 서로 간섭을 일으키며, EWC 및 SI와 같은 기존의 정규화 (Regularization) 방법들은 특정 파라미터가 어떤 입력 영역을 담당하는지에 대한 인식 없이 균일한 페널티를 적용합니다. 우리는 Kolmogorov-Arnold Networks (KANs)의 컴팩트 서포트 스플라인 (Compact-support spline) 파라미터화를 활용하여, 매듭 (Knot) 단위의 세밀한 수준에서 중요도 가중 앵커링 (Importance-weighted anchoring)을 수행하는 지속 학습 프레임워크인 KAN-CL을 제안합니다. 컨볼루션 백본 (Convolutional backbone) 위에 분류 헤드 (Classification head)로 배치되고 백본에는 표준 EWC 정규화가 적용된 (bbEWC) KAN-CL은, Split-CIFAR-10/5T 및 Split-CIFAR-100/10T 벤치마크에서 헤드 전용 KAN 베이스라인 대비 각각 88%와 93%의 망각 감소를 달성하였으며, 두 벤치마크 모두에서 모든 베이스라인의 정확도와 대등하거나 이를 상회하는 성능을 보여주었습니다. 나아가 우리는 뉴럴 탄젠트 커널 (Neural Tangent Kernel, NTK) 분석을 통해 KAN의 스플라인 국소성 (Spline locality)이 태스크 간 NTK에서 구조적 랭크 결손 (Structural rank deficit)을 유도하며, 이를 통해 특징 학습 (Feature-learning) 영역에서도 유효한 망각 경계 (Forgetting bound)를 산출함을 보여줍니다. 이러한 결과는 자연스러운 파라미터 국소성을 가진 아키텍처 (KAN 헤드)와 상호 보완적인 백본 정규화기 (bbEWC)를 결합하는 것이 치명적 망각에 대한 구성적이고 원칙적인 접근 방식임을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기