arXiv논문2026. 06. 15. 05:32

시각-언어 구성성(Visio-Linguistic Compositionality) 향상을 위한 교차 모달 마스크 구성 개념 모델링

요약

시각-언어 모델(VLM)의 구성적 이해 능력을 향상시키기 위한 새로운 프레임워크 MACCO를 제안합니다. 한 모달리티의 구성 개념을 마스킹하고 다른 모달리티의 문맥으로 재구성하는 방식을 통해 객체 관계 및 속성 결합 능력을 개선합니다.

핵심 포인트

기존 VLM의 'bag-of-words' 한계 극복 시도
MACCO 프레임워크를 통한 교차 모달 구성 구조 정렬
마스킹된 특징의 모달 간/내 공동 정렬 및 정규화 도입
텍스트-이미지 생성 및 멀티모달 LLM 성능 향상 입증

CLIP과 같이 대조 학습(Contrastively trained)된 시각-언어 모델(Vision-language models)은 이미지-텍스트 결합 표현(joint image-text representations)을 학습하는 데 있어 놀라운 발전을 이루었으나, 구성적 이해(compositional understanding) 측면에서는 여전히 과제에 직면해 있습니다. 이들은 종종 객체 간의 관계(object relations), 속성-객체 결합(attribute-object bindings), 그리고 단어 순서 의존성(word order dependencies)을 포착하는 데 어려움을 겪는 "bag-of-words" 동작을 보입니다. 이러한 한계는 최적화를 위해 전역적이고 단일 벡터 표현(global, single-vector representations)에 의존하는 것뿐만 아니라, 쌍을 이룬 이미지-텍스트 데이터에 본질적으로 존재하는 풍부한 구성 정보(compositional information)를 충분히 활용하고 모델링하지 못하는 것에서 비롯됩니다. 본 연구에서는 한 모달리티(modality)에서 구성 개념(compositional concepts)을 마스킹(masking)하고, 다른 모달리티의 전체 문맥 정보(full contextual information)를 조건으로 이를 재구성하여 모델이 교차 모달 구성 구조(cross-modal compositional structures)를 더욱 효과적으로 포착하고 정렬할 수 있도록 하는 프레임워크인 MACCO (MAsked Compositional Concept MOdeling)를 제안합니다. 이 과정을 촉진하기 위해, 우리는 마스킹된 특징(masked features)을 모달 간(inter-modally) 및 모달 내(intra-modally)에서 공동으로 정렬하고 정규화(regularize)하는 두 가지 보조 목적 함수(auxiliary objectives)를 도입합니다. 다섯 가지 구성 벤치마크(compositional benchmarks)에 대한 광범위한 실험과 심층 분석을 통해, 우리의 접근 방식이 시각-언어 모델(VLMs)의 구성성을 크게 향상시킬 뿐만 아니라 구문 구조(syntactic structure) 및 언어 정보(linguistic information)를 포착하는 능력도 개선함을 입증합니다. 또한, 향상된 구성성은 텍스트-이미지 생성(text-to-image generation) 및 멀티모달 거대 언어 모델(multimodal large language model)에도 이점을 제공합니다. 코드는 https://github.com/hiker-lw/MACCO 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

시각-언어 구성성(Visio-Linguistic Compositionality) 향상을 위한 교차 모달 마스크 구성 개념 모델링

요약

핵심 포인트

댓글