arXiv논문2026. 06. 17. 11:22

단조 Kolmogorov-Arnold Networks: 유도 편향(Inductive Bias)으로서의 단조성에 대한 이론적 및 경험적 연구

요약

모든 파라미터에 대해 엄격한 단조성을 보장하는 새로운 KAN 변형인 MKAN을 제안합니다. 지수적 재매개변수화와 단조 기저 함수를 통해 제약 없는 경사 하강법만으로 훈련이 가능하며, 이론적 표현 비용 정리를 통해 단조 인코더의 크기 규칙을 제시합니다.

핵심 포인트

모든 파라미터에 대해 엄격한 단조성을 보장하는 MKAN 아키텍처 제안
표준적인 제약 없는 경사 하강법(unconstrained gradient descent)으로 훈련 가능
단조 실현을 위한 이론적 표현 비용(representation-cost) 정리 정립
SMM/ICML-2024 벤치마크에서 최첨단 단조 신경망과 대등한 성능 입증
KAN의 장점인 엣지별 기능적 투명성과 단조성을 결합

단조성(Monotonicity)은 출력이 특정 입력에 대해 단조적으로 반응한다고 알려진 정형 데이터(tabular), 과학 및 경제적 환경에 의해 동기 부여된, 신경망을 위한 오랜 아키텍처 유도 편향(inductive bias)입니다. 기존의 접근 방식은 MLP 또는 흐름(flow) 기반이며 엣지별 기능적 투명성(per-edge functional transparency)이 부족합니다. 단조성을 가진 유일한 Kolmogorov-Arnold Network (KAN) 변형인 MonoKAN은 제한된 파라미터 하위 집합에 대해서만 제약을 강제하며 투영 방식(projection-style)의 훈련 절차를 필요로 합니다. 우리는 B-spline 계수의 지수적 재매개변수화(exponential reparameterization), 양수 엣지 가중치(positive edge weights), 그리고 단조 기저 활성화 함수(monotone base activation)를 통해 extit{모든} 파라미터 값에 대해 엄격한 단조성을 보장하는 KAN인 extbf{MKAN}을 통해 이 간극을 메웁니다. 훈련은 표준적인 제약 없는 경사 하강법(unconstrained gradient descent)으로 축소됩니다. 우리의 주요 이론적 기여는 extit{표현 비용(representation-cost)} 정리입니다: 구형(ball-shaped) 의미론적 이웃 분할(semantic-neighborhood partition)을 유도하는 임의의 $C^K, K >0$ 특징 추출기(feature extractor)는 $N' = N^* + k \le 2N^$에서 등가적인 이웃 구조의 단조 실현(monotone realization)을 허용하며, 여기서 $k$는 원래의 비단조 좌표(non-monotone coordinates)의 수입니다. 이 경계는 아키텍처에 무관하며 단조 인코더(monotone encoders)를 위한 원칙적인 크기 규칙을 제공합니다. 경험적으로, MKAN은 SMM/ICML-2024 벤치마크에서 최첨단 단조 신경망(monotone NNs)과 경쟁할 수 있는 수준이면서, 엄격한 제약 없는 단조성과 KAN의 엣지별 기능적 투명성을 결합한 유일한 방법입니다. $2N^$ 예측은 4개의 실제 데이터셋에 대한 자기 지도 학습 특징 크기 스윕(self-supervised feature-size sweep)에서 검증되었으며, 통제된 단조 생성(monotone-generative) 데이터셋에서 MKAN은 KAN, MLP 및 선형 베이스라인보다 실질적으로 더 높은 Spearman 정렬(Spearman alignment)로 실제 정답 요인(ground-truth factors)을 복구합니다.

AI 자동 생성 콘텐츠

원문 바로가기

단조 Kolmogorov-Arnold Networks: 유도 편향(Inductive Bias)으로서의 단조성에 대한 이론적 및 경험적 연구

요약

핵심 포인트

댓글