arXiv논문2026. 05. 18. 20:02

잠재 변수 모델의 양극화 영역에 대한 엔트로피 기반 특성 분석

요약

본 논문은 VAE의 잠재 변수가 활성, 수동, 혼합 하위 집합으로 나뉘는 양극화 영역을 엔트로피 기반으로 분류하는 새로운 정보 이론적 방법을 제안합니다. 기존의 가우시안 사전 확률 의존성을 탈피하여 평균 표현의 엔트로피를 활용하며, 실험을 통해 다양한 VAE 모델에서 이 기준의 유효성을 입증했습니다. 또한 수동 차원의 붕괴가 완전한 정보 제거가 아닌 규모의 문제일 수 있음을 시사합니다.

핵심 포인트

가우시안 사전 확률에 의존하지 않는 엔트로피 기반의 잠재 변수 분류 방법론 제안
평균 표현의 엔트로피와 KL 최소화 간의 이론적 관계(엔트로피-분산 경계) 규명
평균의 엔트로피만으로는 활성 차원과 혼합 차원을 완벽히 구분하기 어렵다는 한계 명시
$eta$-VAEs, 식별 가능한 VAEs 등 다양한 모델에서 제안된 기준의 일관된 성능 확인
수동 차원이 적절히 정규화될 경우 다운스트림 태스크에서 미세한 성능 개선을 가져올 수 있음

변분 오토인코더 (Variational Autoencoders, VAEs)는 종종 잠재 변수 (latent variables)가 활성 (active), 수동 (passive), 혼합 (mixed) 하위 집합으로 분리되는 양극화 영역 (polarised regime)을 나타냅니다. 활성 차원을 식별하기 위한 기존 기준들은 가우시안 사전 확률 (Gaussian prior)에 의존하며, 이는 변분 모델 (variational models) 및 특정 사전 확률로의 적용성을 제한합니다. 본 논문에서는 평균 표현 (mean representation)의 엔트로피 (entropy)를 기반으로 한 양극화 영역의 단순한 정보 이론적 (information-theoretic) 분류 방법을 제안합니다. 우리는 이론적으로 이 엔트로피가 엔트로피-분산 경계 (entropy--variance bounds)를 통해 KL 최소화 (KL minimisation)와 어떻게 결합되는지 보여주며, 결과적으로 도출된 기준을 Bonheme의 활성/수동 조건 (active/passive conditions)과 연관시킵니다. 또한 우리는 핵심적인 한계점도 명확히 합니다. 즉, 평균의 엔트로피만으로는 분산 표현 (variance representation)으로부터의 추가적인 신호 없이는 활성 차원과 혼합 차원을 신뢰성 있게 구분할 수 없습니다. 실험적으로 우리는 $\beta$-VAEs, 식별 가능한 VAEs (identifiable VAEs), 최소 부피 오토인코더 (Least-Volume Autoencoders), 그리고 L2 정규화된 오토인코더 (L2-regularised autoencoders)에서 엔트로피 기준을 평가하였으며, 연구된 모델 클래스 전반에 걸쳐 양극화 영역이 존재할 때 이 기준이 일관되게 이를 복구함을 확인했습니다. 마지막으로, 우리는 잠재 코드 (latent codes)가 적절히 정규화될 때 수동 차원이 다운스트림 태스크 (downstream tasks)에서 작지만 일관된 개선을 가져올 수 있음을 보여주며, 이는 붕괴 (collapse)가 절대적인 정보 제거보다는 규모 (scale)의 문제인 경우가 많음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

잠재 변수 모델의 양극화 영역에 대한 엔트로피 기반 특성 분석

요약

핵심 포인트

댓글