가우시안 평균장 변분 추론 (Gaussian Mean Field Variational Inference)은 예측 분산을 과대평가할 수 있다
요약
평균장 변분 추론(MFVI)이 파라미터 분산은 과소평가하지만, 예측 분산은 오히려 과대평가할 수 있다는 연구 결과를 제시합니다. 특히 훈련 데이터가 집중된 방향에서 이러한 과대평가가 발생하며, 이를 온도 조절을 통해 교정할 수 있음을 입증합니다.
핵심 포인트
- MFVI는 파라미터 공간의 분산은 과소평가하나 예측 분산은 과대평가할 수 있음
- 과대평가는 주로 훈련 데이터가 집중되는 방향에서 발생함
- 이 현상은 콜드 사후 효과(Cold Posterior Effect)와 연관됨
- 온도(temperature) 조절을 통해 예측 분산의 과대평가를 교정 가능함
평균장 변분 추론 (Mean Field Variational Inference, MFVI)은 사후 분산 (posterior variance)을 과소평가하는 것으로 널리 알려져 있습니다. 공액 베이지안 선형 회귀 (conjugate Bayesian Linear Regression, BLR)를 분석함으로써, 우리는 이러한 특성이 불완전하다는 것을 보여줍니다. 즉, MFVI는 파라미터 공간 (parameter space)에서의 분산은 과소평가하지만, 정확한 사후 분포 (exact posterior)와 비교했을 때 예측 분산 (predictive variance)은 과대평가할 수 있습니다. 우리는 만약 MFVI 사후 분포가 특정 방향에서 예측 분산을 과소평가한다면, 다른 방향에서는 반드시 이를 과대평가하게 된다는 것을 보여줍니다. 결정적으로, 이러한 과대평가는 훈련 데이터 (training data)가 집중되는 방향에서 발생합니다. 이는 훈련 분포 (training distribution)에서 추출된 테스트 포인트 (test point)에 대해, MFVI의 기대 예측 분산 (expected predictive variance)이 정확한 사후 분포의 예측 분산보다 커진다는 놀라운 결과로 이어집니다. 우리는 이러한 효과의 병리적인 사례를 입증하며, 여기에서 MFVI 사후 분포는 분포 내 데이터 (in distribution data)에 대해 사전 분포 (prior)와 비교하여 예측 분산을 줄이는 데 실패합니다. 우리는 이러한 결과들을 콜드 사후 효과 (Cold Posterior Effect)와 연결하며, 온도 (temperature)를 조절함으로써 이러한 과대평가를 교정하여 정확한 사후 분포의 예측에 더 가까운 결과를 얻을 수 있다고 주장합니다. 우리는 합성 데이터 (synthetic) 및 실제 세계의 회귀 (regression) 작업에서 우리의 이론을 검증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기