임의의 축약 순서 및 부정확한 활성화 함수 구현을 가진 부동 소수점 신경망의 표현력
요약
본 연구는 실제 구현 환경인 유한 정밀도 부동 소수점 산술 하에서의 신경망 표현력을 분석합니다. 임의의 축약 순서와 부정확한 활성화 함수 구현을 포함하는 일반화된 실행 의미론을 도입하여, 다양한 실제 활성화 함수들의 보편적 표현 가능성을 증명합니다.
핵심 포인트
- 부동 소수점 산술의 실행 의미론을 고려한 신경망 표현력 연구
- 임의의 축약 순서 및 유계된 ulp 오차를 포함한 일반화된 모델 제시
- 구별 가능성 프레임워크를 통한 보편적 표현 가능성 조건 규명
- Sigmoid, ReLU, GeLU 등 주요 활성화 함수의 표현력 확립
신경망에 대한 기존의 대부분의 표현력 (expressivity) 이론은 정확한 실수 산술 (exact real arithmetic)을 가정하지만, 실제 신경망은 구현에 따라 달라지는 실행 의미론 (execution semantics)을 가진 유한 정밀도 부동 소수점 산술 (finite-precision floating-point arithmetic) 하에서 실행됩니다. 최근 연구들이 부동 소수점 신경망의 표현력 (expressive power)을 연구하기 시작했으나, 기존 결과들은 매우 제한된 활성화 함수 (activation functions)와 고정된 좌측에서 우측으로의 축약 순서 (left-to-right reduction orders) 및 정확하게 반올림된 활성화 구현 (correctly rounded activation implementations)과 같은 이상적인 가정에 국한되어 있습니다. 본 연구에서는 임의의 축약 순서와 유계된 ulp 오차 (bounded ulp errors)를 가진 부정확한 활성화 구현을 포함하여, 일반화된 부동 소수점 실행 의미론 하에서의 부동 소수점 신경망의 표현력을 연구합니다. 우리는 부동 소수점 도메인 사이의 임의의 함수를 부동 소수점 신경망이 언제 정확하게 표현할 수 있는지 조사합니다. 이를 위해 우리는 일반적인 구별 가능성 프레임워크 (distinguishability framework)를 도입하며, 첫 번째 레이어에서 서로 다른 모든 입력 쌍을 구별할 수 있는 능력이 보편적 표현 가능성 (universal representability)을 위해 필수적임을 보여줍니다. 이러한 특성화는 정확하게 반올림된 코사인 활성화 (correctly rounded cosine activation)와 같은 이전의 고립된 반례들을 확장하여, 보편적 표현자가 될 수 없는 광범위한 클래스의 활성화 구현들을 도출합니다. 나아가 우리는 활성화 구현에 대한 완만한 조건 하에서 적절한 형태의 구별 가능성이 보편적 표현 가능성을 위한 충분조건임을 증명합니다. 이 프레임워크를 사용하여, 우리는 기존에 알려진 것보다 훨씬 더 현실적인 부동 소수점 실행 모델 하에서 $\mathrm{Sigmoid}$, $\tanh$, $\mathrm{ReLU}$, $\mathrm{ELU}$, $\mathrm{SeLU}$, $\mathrm{GeLU}$, $\mathrm{Swish}$, $\mathrm{Mish}$, 그리고 $\sin$의 구현을 포함한 광범위한 실제 활성화 함수 클래스에 대한 보편적 표현 가능성 결과를 확립합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기