arXiv논문2026. 05. 07. 17:43

시도: 광범위한 무작위 MLP 의 기대 출력 추정 효율성 개선

요약

본 논문은 머신러닝에서 기대 손실(expected loss)을 추정하는 기존의 샘플링 기반 방법의 한계를 극복하고자 합니다. 특히 초기화된 MLP에 대해, 실제 순전파 없이도 가우스 입력에 대한 기대 출력을 효율적으로 추정하는 방법을 제안합니다. 이 방법은 각 층의 활성화 분포를 모멘트와 헤르미트 전개 같은 수학적 도구를 사용하여 근사하며, 충분히 넓은 네트워크에서 몬테 카를로 샘플링보다 훨씬 적은 계산량(FLOPs)으로 목표 MSE에 도달함을 이론적/경험적으로 입증했습니다. 나아가 이 기법이 희귀 사건의 확률 추정에도 유용하여 모델의 극단적인 위험을 관리하는 데 기여할 수 있음을 보여줍니다.

핵심 포인트

기존 기대 손실 추정 방식(샘플링)의 비효율성을 개선함.
네트워크 순전파 없이도 가우스 입력에 대한 기대 출력을 효율적으로 근사하는 방법을 제시함.
활성화 분포를 모멘트 및 헤르미트 전개 같은 수학적 도구를 이용해 표현하여 계산 복잡도를 낮춤.
충분히 넓은 네트워크에서 몬테 카를로 샘플링 대비 훨씬 적은 FLOPs로 높은 정확도를 달성함.
이 방법론을 활용하여 모델의 극단적인 꼬리 위험(catastrophic tail risks) 확률 추정에 적용할 수 있음.

머신러닝에서 기대 손실 (expected loss) 을 추정하는 가장 일반적인 방법은 샘플링을 사용하는 것입니다. 각 샘플에 대해 손실을 계산한 후 경험적 평균 (empirical average) 을 취합니다. 그러나 샘플링은 항상 최적적인 것은 아닙니다. 초기화 상태의 MLP 를 주어진 경우, 우리는 네트워크를 통해 입력을 통과시키지 않고도 가우스 입력 (Gaussian inputs) 에 대한 기대 출력을 추정하는 방법을 보여줍니다. 대신, 각 층의 활성화 분포의 근사적 표현을 생성하며, 모멘트 (cumulants) 와 헤르미트 전개 (Hermite expansions) 같은 도구를 활용합니다. 우리는 이론적으로도 경험적으로도 충분히 넓은 네트워크 (sufficiently wide networks) 의 경우, 우리의 추정자가 몬테 카를로 샘플링보다 훨씬 적은 FLOPs 를 사용하여 목표 제곱 평균 오차 (mean squared error) 를 달성함을 보여줍니다. 또한, 우리는 이러한 방법들이 희귀 사건 (rare events) 의 확률을 추정하는 데 특히 잘 작동함을 발견했으며, 이를 모델 훈련에 사용할 수 있음을 추가로 증명했습니다. 이 결과들은 전체적으로 극단적 꼬리 위험 (catastrophic tail risks) 의 확률이 크게 감소한 모델을 생성할 수 있는 길을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

시도: 광범위한 무작위 MLP 의 기대 출력 추정 효율성 개선

요약

핵심 포인트

댓글