유한 정밀도 환경에서 Tanh 신경망 학습의 한계
요약
유한 정밀도 환경에서 Tanh 활성화 함수를 사용하는 신경망 학습의 이론적 한계를 분석합니다. 샘플링 예산이 지수적으로 증가하지 않는 한, 특정 조건에서 수렴 속도가 몬테카를로 속도를 초과할 수 없음을 증명합니다.
핵심 포인트
- 유한 정밀도 계산 환경에서의 Tanh 신경망 학습 한계 조사
- 반복적 Tanh 활성화를 통한 국소화된 범프 함수 구성 메커니즘 활용
- 샘플링 예산에 따른 수렴 속도의 이론적 상한선 증명
- ReLU 신경망 연구 결과를 Tanh 설정으로 확장 적용
우리는 Berner, Grohs, 그리고 Voigtländer (2023)의 연구를 바탕으로, 유한 정밀도 계산 (finite-precision computations) 및 $L^p$ 정확도 보장 하에서 점 평가 (point evaluations)를 통한 $\tanh$ 신경망 학습의 한계를 조사합니다. 우리의 접근 방식은 반복적인 $\tanh$ 활성화 함수 (activations)를 통해 날카롭게 국소화된 범프 함수 (bump functions)를 새롭게 구성하는 것에 기반합니다. 이 메커니즘을 사용하여, 우리는 유한 정밀도 설정에서 $m$개의 샘플에 기반한 어떠한 적응형 무작위 알고리즘 (adaptive randomized algorithm)도 샘플링 예산이 네트워크 파라미터 및 아키텍처의 크기에 따라 지수적으로 증가하지 않는 한, $L^p$ 노름 (norm)에서 몬테카를로 속도 (Monte Carlo rate)인 $O(m^{-1/p})$보다 높은 수렴 속도를 달성할 수 없음을 보여줍니다. 이 결과는 국소화된 범프 함수를 포함하는 클래스의 학습 가능성 (learnability)에 대해 유한 정밀도가 부과하는 근본적인 한계를 드러내며, ReLU 신경망에 대한 이전의 결과들을 $\tanh$ 설정으로 확장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기