arXiv논문2026. 05. 29. 10:47

다항식 표현을 통한 단순성 정량화 및 최적화

요약

심층 신경망의 단순성 편향을 정량화하기 위해 다항식 표현을 활용한 새로운 연구를 소개합니다. 직교 다항식 기저를 통해 네트워크의 예측 동작을 근사하며, 이를 통해 일반화 성능을 예측하는 새로운 지표를 제안합니다.

핵심 포인트

다항식 표현을 통한 신경망의 단순성 정량화 방법론 제안
유효 차수를 활용하여 기존 지표보다 우수한 일반화 성능 예측 가능
미분 가능한 단순성 정규화 항을 통한 모델 성능 향상
이미지, 텍스트, 강화학습 등 다양한 태스크에서 효과 입증

심층 신경망 (Deep networks)은 종종 "단순한" 솔루션을 선호하는 경향을 보이며, 이러한 단순성 편향 (simplicity bias)이 일반화 (generalization)에 핵심적인 역할을 한다고 널리 믿어지고 있습니다. 하지만 광범위하게 적용 가능한 단순성의 정량적 측정 방법은 여전히 찾기 어렵습니다. 본 논문에서는 신경망 함수 (neural functions)를 위한 분포 인식형 (distribution-aware) 저차원 대리 모델 (low-dimensional surrogate)로서 다항식 표현 (polynomial representations)을 소개합니다. 우리는 직교 다항식 기저 (orthogonal polynomial bases)를 사용하여 데이터 의존적 보간 경로 (data-dependent interpolation paths)를 따라 네트워크의 예측 동작을 근사함으로써, 압축된 함수 표현 (functional representation)을 생성합니다. 우리는 이 표현의 유효 차수 (effective degree)가 다양한 태스크와 아키텍처 전반에서 일반화 성능을 예측할 수 있는 실용적인 단순성 지표 (simplicity metric)로 작용하며, 샤프니스 (sharpness)와 같은 기존의 일반화 대리 지표 (generalization proxies)보다 일관되게 우수한 성능을 보임을 입증합니다. 마지막으로, 다항식 표현은 자연스럽게 미분 가능한 단순성 정규화 항 (differentiable simplicity regularizer)을 생성하며, 이는 이미지 및 텍스트 분류, 대조적 시각-언어 모델 (contrastive vision-language models)의 미세 조정 (fine-tuning), 그리고 강화학습 (reinforcement learning)에서 일반화 성능을 일관되게 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

다항식 표현을 통한 단순성 정량화 및 최적화

요약

핵심 포인트

댓글