arXiv논문2026. 06. 04. 13:21

RePercENT: 두 가지 모달리티를 넘어 확장 가능한 얽힘 해제 표현 학습 (Disentangled Representation

요약

RePercENT는 기존의 두 가지 모달리티 한계를 극복하고 확장 가능한 멀티모달 얽힘 해제 표현 학습을 위한 자기지도 학습 프레임워크입니다. 사전 추출된 임베딩을 활용하는 플러그 앤 플레이 아키텍처를 통해 공동 사전 학습 없이도 공유 및 고유 요소를 효과적으로 식별합니다.

핵심 포인트

두 가지 이상의 모달리티로 확장 가능한 쌍별 얽힘 해제 실현
사전 추출된 임베딩을 사용하는 플러그 앤 플레이 아키텍처
공유 및 고유 성분 도출을 위한 공동 최적화 목적 함수 도입
계산 복잡도를 크게 줄이면서도 경쟁력 있는 성능 유지
솔루션의 최적성을 입증하는 공식적인 이론적 보장 제공

멀티모달 (Multimodal) 데이터의 잠재력을 최대한 활용하기 위해서는, 최첨단 정렬 (Alignment) 및 융합 (Fusion) 방식을 넘어 모달리티별 정보를 희생하지 않으면서 모든 교차 모달 (Cross-modal) 상호작용을 활용할 수 있는 표현 (Representations)이 필요합니다. 얽힘 해제 표현 (Disentangled representations)을 학습하는 것은 관측 데이터에 숨겨진 이러한 기저의 공유 요소 (Shared factors) 및 고유 요소 (Unique factors)를 식별하는 원칙적인 방법입니다. 그러나 멀티모달 얽힘 해제 (Multimodal disentanglement)가 매력적인 패러다임임에도 불구하고, 기존 방법들은 내재적인 확장성 병목 현상 (Scalability bottleneck)으로 인해 주로 두 가지 모달리티 (Two-modality) 체제에 국한되어 있습니다. 이를 해결하기 위해, 우리는 이러한 한계를 극복하고 두 가지 모달리티를 넘어 확장 가능한 쌍별 얽힘 해제 (Pairwise disentanglement)를 실현하도록 설계된 자기지도 학습 (Self-supervised) 프레임워크인 RePercENT를 제안합니다. 멀티모달 '플러그 앤 플레이 (Plug-and-play)' 아키텍처를 통해, 우리의 접근 방식은 사전 추출된 임베딩 (Embeddings) 상에서 직접 작동하므로 광범위한 공동 사전 학습 (Joint pre-training)의 필요성을 제거하며, 기저의 모달리티나 파운데이션 모델 (Foundation model) 백본에 대한 어떠한 가정도 하지 않습니다. 또한, 공유 성분 (Shared components)과 고유 성분 (Unique components)을 동시에 도출하기 위한 공동 최적화 목적 함수 (Joint optimization objective)를 도입하고, 우리 솔루션의 최적성을 특징짓는 공식적인 이론적 보장 (Theoretical guarantees)을 제공합니다. 다양한 모달리티와 작업에 걸쳐, RePercENT는 경쟁력 있는 성능을 유지하면서 얽힘 해제된 성분들을 성공적으로 복원하는 동시에 계산 복잡도 (Computational complexity)를 크게 줄입니다.

AI 자동 생성 콘텐츠

원문 바로가기

RePercENT: 두 가지 모달리티를 넘어 확장 가능한 얽힘 해제 표현 학습 (Disentangled Representation

요약

핵심 포인트

댓글