arXiv논문2026. 06. 09. 12:06

Conan-embedding-v3: 옴니모달 임베딩을 위한 모달리티 특화 모델의 융합

요약

Conan-embedding-v3는 옴니모달 검색을 위해 모달리티별 전문가를 독립 학습 후 융합하는 '분리-융합-복구' 프레임워크를 제안합니다. 융합 과정에서 발생하는 '프로젝터 드리프트' 현상을 발견하고, 이를 해결하기 위한 프로젝터 복구 및 멀티모달 리허설 전략을 통해 높은 검색 성능을 달성했습니다.

핵심 포인트

분리-융합-복구(decouple-fuse-recover) 프레임워크 제안
융합 시 발생하는 '프로젝터 드리프트' 현상 규명
백본 동결 후 프로젝터 미세 조정을 통한 성능 복구
MMEB 74.9점 및 MAEB 오디오 스위트 55.61점 달성

옴니모달 검색 (Omni-modal retrieval)은 텍스트, 이미지, 비디오, 문서 및 오디오 입력에 대해 단일 임베딩 공간 (embedding space)을 제공할 것을 약속하지만, 이러한 모달리티들은 데이터 분포, 아키텍처 (architecture), 그리고 최적화 역학 (optimization dynamics)이 서로 다르기 때문에 통일된 검색기 (retriever)를 구축하는 것은 어렵습니다. 본 연구에서는 옴니모달 검색을 위한 '분리-융합-복구 (decouple--fuse--recover)' 프레임워크인 Conan-embedding-v3를 제시합니다. Conan-embedding-v3는 먼저 모달리티 전문가 (modality specialists)들을 독립적으로 학습시킨 후, 이들의 태스크 벡터 (task vectors)를 하나의 단일 밀집 백본 (dense backbone)으로 융합하며, 우리는 이 전략을 '분리된 전문가 융합 (Decoupled Specialist Fusion)'이라고 부릅니다. 우리는 이 융합이 시각, 비디오, 문서 검색 능력을 구성할 뿐만 아니라, 프로젝터 기반 모달리티 (projector-based modalities)에 대한 실패 모드 (failure mode)를 드러낸다는 것을 보여줍니다. 즉, 외부 인코더 (encoder)와 프로젝터 (projector)를 통해 오디오가 연결될 때, 백본을 융합하면 프로젝터가 오디오 전문가 백본에 맞춰 보정된 상태로 남게 되어, 모든 오디오 특화 모듈을 변경 없이 그대로 복사했음에도 불구하고 심각한 오디오 검색 퇴보 (audio retrieval regression)를 초래합니다. 우리는 이 실패를 '프로젝터 드리프트 (Projector Drift)'라고 부릅니다. 이를 수리하기 위해 Conan-embedding-v3는 '프로젝터 복구 (Projector Recovery)' (즉, 백본을 동결한 상태에서 프로젝터의 전체 파라미터를 미세 조정하는 방식)를 적용한 후, 균형 잡힌 멀티모달 리허설 (multi-modal rehearsal)을 수행합니다. 결과적으로 생성된 모델은 하나의 백본에서 이러한 검색 경로들을 지원하며, MMEB에서 74.9점을 달성하는 동시에 30개 태스크로 구성된 MAEB 오디오 스위트 (audio suite)에서 55.61점을 획득했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Conan-embedding-v3: 옴니모달 임베딩을 위한 모달리티 특화 모델의 융합

요약

핵심 포인트

댓글