arXiv논문2026. 05. 29. 10:51

COMET: 오디오-텍스트 멀티모달 대조 학습 임베딩의 모달리티 간극에 대한 개념 공간 해부

요약

CLAP 모델의 오디오-텍스트 임베딩 간 모달리티 간극을 분석하기 위해 PLS-SVD 기반의 COMET 프레임워크를 제안합니다. 연구를 통해 평균 성분 외에도 개념적 축이 간극에 기여함을 밝히고, 별도 학습 없이 간극을 완화하는 스펙트럼 절단 기법을 제시합니다.

핵심 포인트

COMET 프레임워크를 통한 모달리티 간극의 개념 공간 해부
모달리티 간극이 단순 평균 이동이 아닌 개념적 축의 문제임을 규명
추가 학습 없는 스펙트럼 절단(Spectral Truncation) 방법 제안
제로샷 오디오 캡셔닝 성능을 지도 학습 수준으로 향상
임베딩 차원 축소 및 검색 성능 유지

대조 언어-오디오 사전 학습 (Contrastive Language-Audio Pretraining, CLAP) 모델은 오디오 이해를 위해 널리 사용되며, 많은 제로샷 (zero-shot) 애플리케이션에서 모달리티에 구애받지 않는 조건 교환 (modality-agnostic condition swapping)을 지원합니다. 그러나 이들의 성능은 오디오와 텍스트 임베딩 사이의 모달리티 간극 (modality gap)에 의해 크게 영향을 받습니다. 기존의 설명들은 주로 이 간극을 원뿔 효과 (cone effect)의 결과로 보고 이를 평균 임베딩 (mean embeddings) 사이의 이동으로 취급하지만, 평균만을 교정하는 것은 제한적인 개선만을 가져옵니다. 정보 불균형 (information imbalance) 및 차원 붕괴 (dimensionality collapse)와 같은 대안적인 가설들도 제안되었으나, 이들은 여전히 충분히 검증되지 않았으며 오디오 도메인에서 철저하게 연구되지 않았습니다. 한편, 멀티모달 대조 임베딩을 해석 가능한 개념 (interpretable concepts)으로 분해하려는 여러 연구가 시도되었지만, 개념 분해의 관점에서 모달리티 간극을 명시적으로 분석한 연구는 없었습니다. 본 연구에서는 CLAP을 위한 새로운 부분 최소 제곱 특이값 분해 (partial least squares singular value decomposition, PLS-SVD) 프레임워크인 COMET (Concept space Organization and Modality gap Explanation with PLS-SVD Transformation)을 소개하며, 이를 통해 모달리티 간극에 대한 더 넓은 관점을 밝혀냅니다. 우리의 프레임워크는 공유된 개념을 포착하는 작고 해석 가능한 축 (axes)의 하위 집합만이 유사도 계산에 실질적으로 기여하며, 평균 성분 (mean component)은 모달리티 간극을 부분적으로만 나타낸다는 것을 밝혀냅니다. 이러한 통찰을 바탕으로, 우리는 별도의 학습 없이 모달리티 간극을 완화하는 간단한 스펙트럼 절단 (spectral truncation) 방법을 제안합니다. 이 방법은 대규모 보조 메모리 뱅크 (auxiliary memory banks)나 값비싼 연산을 요구하지 않으면서도, 조건 교환을 통한 제로샷 오디오 캡셔닝 (zero-shot audio captioning)이 완전 지도 학습 (fully supervised) 성능에 근접할 수 있도록 합니다. 동시에, 검색 (retrieval) 및 오디오 캡셔닝 작업에서 강력한 성능을 유지하면서 임베딩 차원을 실질적으로 축소합니다.

AI 자동 생성 콘텐츠

원문 바로가기

COMET: 오디오-텍스트 멀티모달 대조 학습 임베딩의 모달리티 간극에 대한 개념 공간 해부

요약

핵심 포인트

댓글