arXiv논문2026. 06. 25. 22:34

변분 딥 가우시안 프로세스(Variational Deep Gaussian Processes)에서의 사후 붕괴(Posterior

요약

Deep Gaussian Processes(DGP)에서 발생하는 사후 붕괴(Posterior collapse) 현상의 원인을 분석하고, 선형 사전 평균이 최적화 조건화에 미치는 영향을 규명합니다. 연구팀은 선형 사전 평균 없이도 성공적인 학습이 가능한 새로운 초기화 방법을 제안하여 모델의 유연성을 높였습니다.

핵심 포인트

DGP의 사후 붕괴 현상과 선형 사전 평균 간의 상관관계 식별
선형 사전 평균의 이점이 비단사 병리 현상 방지보다 초기화 최적화에 있음을 증명
영(Zero) 사전 평균을 사용하는 대안적 초기화 방법 제안
화이트닝된 매개변수화가 수렴 안정성 및 사후 붕괴 방지에 유익함을 분석

DGP(Deep Gaussian Processes)는 여러 계층에 걸쳐 GP(Gaussian Processes)를 연결하여 뛰어난 예측 성능을 보이는 확률 모델입니다. DGP에서의 정확한 추론(Exact inference)은 다루기 매우 어려우며, Kullback-Leibler 발산(Kullback-Leibler divergence)을 최소화함으로써 매개변수 분포(Parametric distribution)로 사후 분포(Posterior)를 근사하는 변분 추론(Variational inference, VI)이 자주 사용됩니다. 더욱이, 좋은 VI 근사치를 찾는 것은 매우 도전적인 과제입니다. 특히, VI의 문제 중 하나는 VI가 사전 분포(Prior)와 일치하는 변분 사후 분포(Variational posterior)로 수렴해 버리는 사후 붕괴(Posterior collapse) 현상입니다. 변분 DGP(Variational DGPs)에서 이는 데이터를 노이즈로 설명해 버리는 것을 의미합니다. 본 연구는 DGP에서의 사후 붕괴를 연구하며, 이것이 DSVI 알고리즘 및 마지막 계층을 제외한 모든 계층에서 널리 사용되는 선형 사전 평균 함수(Linear prior mean function)와 어떤 연관이 있는지 식별합니다. 우리는 선형 사전 평균의 이점이 기존에 믿어왔던 것처럼 매우 깊은 DGP에서의 비단사 병리 현상(Non-injective pathology)을 피하는 데서 오는 것이 아니라, 초기화 시 최적화 문제의 조건화(Conditioning)를 개선하는 데서 온다는 것을 보여줍니다. 따라서 우리는 초기화 시 선형 사전 평균을 가진 DGP를 모방하는, 영(Zero) 사전 평균 DGP의 대안적인 초기화 방법을 제안합니다. 이를 통해 사전 분포에 최적화 중심의 제약을 가하지 않고도 DGP의 성공적인 학습을 가능하게 하며, 최적화의 편의성보다는 모델링 가설에 기반하여 사전 분포를 선택할 수 있도록 합니다. 우리의 분석은 DGP의 세 가지 일반적인 매개변수화(Parameterizations)를 고려하며, 이들 모두가 선형 사전 평균으로부터 이득을 얻는 것은 아님을 보여줍니다. 또한 우리는 왜 화이트닝된 매개변수화(Whitened parameterization)가 DGP에서 더 안정적인 수렴을 제공하는지 설명하는데, 이는 경험적으로 자주 가정되어 왔으나 엄밀한 분석은 부족했던 부분입니다. 나아가, 이러한 안정성이 사후 붕괴 문제를 피하는 데에도 유익함을 보여줍니다. 광범위한 실험을 통해 우리의 발견을 검증합니다. 제안된 초기화 방식은 사후 붕괴를 방지하고, 안정성을 향상시키며, 선형 사전 평균을 가진 DGP와 대등하거나 때로는 더 나은 성능을 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

변분 딥 가우시안 프로세스(Variational Deep Gaussian Processes)에서의 사후 붕괴(Posterior

요약

핵심 포인트

댓글