arXiv논문2026. 06. 08. 10:32

TEVI: 향상된 시각-언어 정렬을 위한 희소 오토인코더 (Sparse Autoencoders) 기반의 텍스트 조건부 시각 표현 편집

요약

TEVI는 희소 오토인코더(SAE)를 활용하여 이미지와 텍스트 임베딩 간의 정보 불균형 문제를 해결하는 프레임워크입니다. 캡션을 기반으로 이미지 임베딩을 선택적으로 재구성하여 시각-언어 정렬 성능을 향상시킵니다.

핵심 포인트

희소 오토인코더(SAE)를 통한 이미지 임베딩 얽힘 해제
캡션 정보를 활용한 선택적 이미지 임베딩 재구성
MS COCO, Flickr 등 주요 벤치마크에서 검색 성능 향상
세밀한 캡션일수록 더 높은 성능 개선 효과 확인
RoCOCO 벤치마크를 통한 모델 강건성 입증

CLIP과 같은 시각-언어 모델 (Vision-language models)은 공유된 이미지-텍스트 임베딩 공간 (image-text embedding space) 덕분에 다양한 작업에서 매우 유용합니다. 그럼에도 불구하고, 이미지와 텍스트 임베딩은 종종 정렬이 제대로 이루어지지 않아 다운스트림 성능 (downstream performance)에 영향을 미칩니다. 최근 연구에 따르면 이는 정보 불균형 (information imbalance)에 기인할 수 있음이 밝혀졌습니다. 즉, 이미지는 캡션 (caption)이 설명하는 것보다 더 많은 정보를 포함하고 있습니다. 본 연구에서는 이미지 임베딩에서 무엇을 유지할지에 대한 신호로 캡션을 사용하는 프레임워크인 TEVI를 제안합니다. 구체적으로, 우리는 희소 오토인코더 (Sparse Autoencoders, SAE)를 사용하여 이미지 임베딩을 얽힘 해제 (disentangle)하고, 주어진 캡션을 기반으로 임베딩을 선택적으로 재구성하도록 마스킹 모듈 (masking module)을 학습시킵니다. 합성 캡션 (synthetic captions)을 사용한 통제된 설정에서, 우리는 TEVI가 다른 속성은 버리면서 캡션에 기술된 속성을 보존하는 데 효과적임을 보여줍니다. 자연 이미지로 학습된 CLIP 모델에 TEVI를 적용함으로써, 우리는 거친 수준의 짧은 캡션 (MS COCO, Flickr) 및 세밀한 수준의 긴 캡션 (IIW, DOCCI) 벤치마크 전반에서 향상된 검색 성능을 달성하였으며, 더 풍부한 캡션에서 더 큰 성능 향상을 보였고, RoCOCO 벤치마크에서 개선된 강건성 (robustness)을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TEVI: 향상된 시각-언어 정렬을 위한 희소 오토인코더 (Sparse Autoencoders) 기반의 텍스트 조건부 시각 표현 편집

요약

핵심 포인트

댓글