쌍방향 모달리티(Pairwise Modalities) 환경에서의 멀티모달 거대 언어 모델 (MLLMs)
요약
본 연구는 다방향 정렬 데이터셋 구축에 필요한 막대한 인적 노력을 줄이기 위해, 오직 쌍방향 모달리티(pairwise modalities) 데이터만을 활용하여 MLLM을 학습하는 새로운 프레임워크를 제안합니다. 제안된 방법론은 잠재 표현 정렬과 교차 모달 재구성의 두 단계로 구성되며, 이론적 분석을 바탕으로 공유된 잠재 공간을 학습합니다. 실험 결과, 3D 포인트 클라우드와 촉각 모달리티를 추가했을 때 강력한 교차 모달 성능을 입증하였습니다.
핵심 포인트
- 다방향 정렬 데이터셋 대신 쌍방향 모달리티 데이터만을 사용하여 MLLM의 확장성 문제 해결
- 잠재 표현 정렬(Latent Representation Alignment)과 교차 모달 재구성(Cross-modal Recomposition)의 2단계 프레임워크 제안
- 자기 모달 재구성 및 쌍방향 대조 학습을 통한 공유 잠재 공간 학습
- 3D 포인트 클라우드 및 촉각 데이터를 활용한 실험을 통해 교차 모달 성능 검증
멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)이 달성한 인상적인 결과에도 불구하고, 이들의 학습은 일반적으로 공동으로 큐레이션된 멀티모달 데이터에 의존하며, 이는 다방향 정렬 데이터셋 (multi-way aligned datasets)을 구축하기 위해 상당한 인적 노력을 필요로 하여 도메인 전반의 확장성 (scalability)을 제한합니다. 본 연구에서는 전체 공동 멀티모달 분포 (full joint multimodal distribution)의 대리물로서 오직 여러 쌍의 모달리티 (paired modalities)만을 활용하여 MLLM을 학습하는 방법을 탐구합니다. 구체적으로, 우리는 먼저 쌍방향 모달리티 (pairwise modalities)만을 관찰했을 때 표현 (representations)이 식별 가능한 (identifiable) 조건에 대한 이론적 분석을 제공합니다. 이 분석을 바탕으로, 우리는 오직 쌍방향 데이터만을 사용하여 모달리티 간의 잠재 표현 (latent representations)을 정렬하기 위한 표현 학습 (representation learning) 프레임워크를 제안합니다. 이 프레임워크는 잠재 표현 정렬 (latent representation alignment)과 교차 모달 재구성 (cross-modal recomposition)의 두 단계로 구성됩니다. 구체적으로, 첫 번째 단계에서는 자기 모달 재구성 (self-modal reconstruction)과 쌍방향 대조 학습 (pair-wise contrastive learning)을 모두 사용하여 모달리티 간의 공유된 잠재 공간 (shared latent space)을 학습합니다. 또한 우리는 부분적 정렬 (partially aligning)과 최소한의 잠재 사양 (minimal latent specification)을 통해 대조 학습 과정에 귀납적 편향 (inductive bias)을 통합합니다. 두 번째 단계에서는 교차 모달 전이 (cross-modal transfer)와 생성을 용이하게 하기 위해, 새롭게 도입된 모달리티의 인코더 (encoder)를 사전 학습된 모달리티의 디코더 (decoders)와 통합합니다. 우리는 세 가지 모달리티 쌍을 가진 사전 학습된 MLLM에 3D 포인트 클라우드 (3D point clouds)와 촉각 (tactile) 모달리티를 새롭게 추가하여 우리의 방법을 평가하며, 정렬된 잠재 표현 공간을 학습함으로써 우리 모델이 강력한 교차 모달 성능을 달성함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기