arXiv논문2026. 06. 12. 12:24

Hölder++: 멀티모달 VAE의 품질-일관성 트레이드오프 개선

요약

본 논문은 기존 멀티모달 VAE가 겪는 생성 품질과 일관성 간의 트레이드오프 문제를 해결하기 위해 Hölder++를 제안합니다. Hölder++는 근사치 없는 Hölder 풀링 구현, 개별/공유 표현을 모델링하는 확장 아키텍처(Hölder+), 그리고 계층적 추론을 통해 이 문제를 개선했습니다.

핵심 포인트

Hölder++는 멀티모달 VAE의 품질-일관성 트레이드오프를 개선합니다.
근사치 없는 Hölder 풀링 구현이 핵심 기술로 사용되었습니다.
개별 및 공유 표현 모델링과 계층적 추론을 결합했습니다.

기존의 멀티모달 변이형 오토인코더(VAEs) 접근 방식들은 생성 품질과 일관성 사이에서 트레이드오프를 겪고 있습니다. 즉, 모든 모달리티에 걸쳐 의미론적으로 일관되면서도 현실적이고 다양한 샘플을 생성하는 데 어려움을 겪습니다. 최근의 연구는 Hölder 풀링(Hölder pooling)에 대한 단순한 근사치를 집계 방법으로 사용하면 단일 공유 표현(single shared representation)을 모든 모달리티에 걸쳐 가정함에도 불구하고, SOTA인 MMVAE+보다 일관성을 개선한다는 것을 보여주었습니다. 하지만 이는 샘플 다양성을 약간 저하시킵니다. 이러한 통찰에서 영감을 받아, 우리는 Hölder++를 제안합니다. 이는 다음 세 가지 방법을 통해 생성 품질-일관성 트레이드오프를 개선하는 새로운 멀티모달 VAE입니다: (i) 근사치 없이 멀티모달 VAE에 적용된 최초의 Hölder 풀링 구현; (ii) 개별적인 공유 표현과 사적(즉, 모달리티별) 표현을 모델링하는 확장 아키텍처 (Hölder+); 그리고 (iii) 공유 및 사적 표현 간의 분리(disentanglement)를 더욱 향상시키는 계층적 추론(hierarchical inference) (Hölder++). 우리의 실험은 Hölder++가 생성 품질-일관성 트레이드오프를 일관되게 개선하고, 더 구조화된 잠재 공간을 산출하며, 다운스트림 작업에 유용한 공유 표현을 학습한다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Hölder++: 멀티모달 VAE의 품질-일관성 트레이드오프 개선

요약

핵심 포인트

댓글