본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 18:52

MCMC Revision을 통한 다중 모달 에너지 기반 모델 (EBM) 및 다중 모달 변분 자동 인코더 학습

요약

본 논문은 다중 모달 데이터의 복잡한 상관관계를 포착하는 에너지 기반 모델(EBM)과 변분 자동 인코더(VAE) 학습 문제를 다룹니다. 기존 방법론들이 직면했던 MCMC 샘플링 및 잠재 공간 파라미화의 한계점을 극복하기 위해, 데이터 공간과 잠재 공간 모두에서 MLE 업데이트와 MCMC 정교화를 효과적으로 결합하는 새로운 학습 프레임워크를 제안합니다. 이 프레임워크는 생성기와 추론 모델을 상호 보완적으로 사용하여 현실적이고 일관된 다중 모달 샘플링 및 학습을 가능하게 합니다.

핵심 포인트

  • 다중 모달 EBM은 복잡한 데이터 상관관계 포착에 유용하지만, 기존 MLE 학습 방식은 MCMC 샘플링의 어려움과 비일관성을 가집니다.
  • 기존 다중 모달 VAE는 공유 잠재 생성기와 결합 추론 모델이 단일 모달로 파라미터화되어 복잡한 구조를 근사하는 데 한계가 있습니다.
  • 제안된 프레임워크는 데이터 공간과 잠재 공간 모두에서 MLE 업데이트와 MCMC 정교화를 효과적으로 통합합니다.
  • 생성기는 EBM 샘플링을 위한 강력한 초기 상태를 제공하고, 추론 모델은 생성기 후속 샘플링에 정보 있는 잠재 초기화를 제공하여 상호 보완적인 시너지를 창출합니다.

에너지 기반 모델 (EBM) 은 유연한 심층 생성 모델의 한 종류로, 다중 모달 데이터의 복잡한 상관관계를 포착하는 데 매우 적합합니다. 그러나 최대 우도 (MLE) 를 통해 다중 모달 EBM 을 학습하려면 결합 데이터 공간에서 마르코프 체인 몬테 카를로 (MCMC) 샘플링이 필요하며, 이때 소음 초기화 로진 동역학은 잘 섞이지 않으며 일관된 인터-모달 관계를 발견하지 못합니다. 다중 모달 VAE 는 공유 잠재 생성기와 결합 추론 모델을 도입함으로써 이러한 인터-모달 상관관계를 포착하는 데 진전을 이루었습니다. 그러나 공유 잠재 생성기와 결합 추론 모델 모두 단일 모달 가우스 (또는 라플라스) 로 파라미터화되어 있어, 다중 모달 데이터가 유도하는 복잡한 구조를 근사할 수 있는 능력을 심각하게 제한합니다. 본 연구에서는 다중 모달 EBM, 공유 잠재 생성기 및 결합 추론 모델의 학습 문제를 연구합니다. 우리는 데이터 공간과 잠재 공간 모두에서 MLE 업데이트와 대응하는 MCMC 정교화를 효과적으로 엮는 학습 프레임워크를 제시합니다. 구체적으로, 생성기는 일관된 다중 모달 샘플을 생성하여 EBM 샘플링에 강력한 초기 상태로 사용되며, 추론 모델은 생성기 후속 샘플링에 정보 있는 잠재 초기화를 제공합니다. 이 두 모델은 효과적인 EBM 샘플링 및 학습을 가능하게 하는 보완적 모델로서, 현실적이고 일관된 다중 모달 EBM 샘플을 생성합니다. 다양한 베이스라인과 비교하여 다중 모달 합성 품질 및 일관성에 대한 우월한 성능을 보여주는 광범위한 실험을 수행했습니다. 제안된 다중 모달 프레임워크의 효과성과 확장성을 검증하기 위해 다양한 분석 및 아벨레이션 연구도 진행했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0