본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 06. 15. 08:01

이미지와 텍스트 Embedding에서 최적의 모델 탐색하기 (2026년 4월)

요약

2026년 4월 기준 이미지와 텍스트 임베딩 모델의 성능을 비교 분석한 벤치마크 결과입니다. Gemini Embedding 2, Qwen3-VL-2B, Voyage 등의 모델을 대상으로 MMEB와 CCKM 지표를 통해 멀티모달 성능 및 MRL(Matryoshka Representation Learning) 효율성을 검토합니다.

핵심 포인트

  • Gemini Embedding 2가 멀티모달 및 MRL 성능에서 우수한 지표를 기록함
  • Qwen3-VL-2B, Gemini, Voyage가 임베딩 모델 시장의 3강 체제를 형성함
  • MRL 기술 적용 시 차원 축소에 따른 성능 열화율이 모델별로 상이함
  • CCKM 벤치마크가 MMEB의 누락된 관점을 보완하는 데 유용함

RAG (검색 증강 생성, Retrieval-Augmented Generation)나 멀티모달 (Multimodal) 검색의 정밀도를 좌우하는 것은 Embedding (임베딩) 모델의 선정입니다. 본 기사에서는 이미지와 텍스트를 다루는 Embedding 모델에 대해, 2026년 4월 시점의 벤치마크를 조사한 결과를 정리합니다.

(추가: 본문 중에서 퍼블릭 프리뷰 (Public Preview)라고 기재한 Gemini Embedding 2는, 2026년 4월 하순에 GA · 일반 제공되었습니다)

멀티모달 모델

최근에는 텍스트뿐만 아니라 이미지나 영상 등도 입력으로 다룰 수 있는 모델이 등장하고 있는데, 그것들은 멀티모달 (Multimodal) 모델이라고 불립니다.

이번에는 멀티모달 모델 Embedding의 벤치마크를 살펴보겠습니다.

벤치마크의 종류

일반적인 Embedding 벤치마크는 다음과 같다고 생각됩니다.

  • MTEB (Massive Text Embedding Benchmark): 텍스트 Embedding
  • MMEB (Massive Multimodal Embedding Benchmark): 멀티모달 Embedding

이번에 필요한 것은 MMEB이며 Hugging Face에 게재되어 있습니다만, 중요한 Gemini Embedding 2가 누락되어 있습니다. 따라서 다른 것을 찾아보겠습니다.

  • CCKM (Cross-modal, Cross-lingual, Key information, MRL)

이것은 Milvus (벡터 데이터베이스) 페이지에 있는 벤치마크입니다. MTEB나 MMEB에서 누락된 관점을 보완하고 있다고 알려져 있습니다. Gemini Embedding 2가 포함되어 있으므로, 이것을 참고해 나가겠습니다.

텍스트와 이미지의 Embedding

텍스트와 이미지를 동일한 벡터 공간에 임베딩하는 비교는 아래 결과와 같습니다.

모델스코어 (R@1)Modality Gap파라미터 수
Qwen3-VL-2B0.9450.252B (오픈 소스)
...
Qwen, Gemini, Voyage의 3강 체제입니다. Voyage는 Modality Gap은 낮지만 Gemini에게 밀리고 있는데, 다른 요인으로 인해 낮아진 것으로 보입니다. Jina CLIP v2가 그 뒤를 잇고 있습니다.

MRL, 차원 수를 낮췄을 때의 성능

텍스트에서 차원 수를 잘라냈을 때의 비교로, MRL (Matryoshka Representation Learning)로 훈련되었는지 여부도 중요한 것 같습니다. 또한 텍스트만이며 이미지는 포함되어 있지 않으므로, 어디까지나 참고 정도로만 봐주시기 바랍니다.

모델ρ (풀 차원)ρ (256차원)열화율
Voyage Multimodal 3.50.8800.8740.7%
...
Gemini Embedding 2의 풀 차원 값이 낮은 것은 테스트 종류에 따른 가능성이 있습니다. 또한 열화율이 마이너스로 되어 있습니다만, 이는 오차 범위 내라고 생각됩니다. 표 자체의 정렬이 풀 차원 값으로 이루어져 있어, 본래 열화율로 정렬해야 할 부분이라고 생각됩니다만, 의도는 알 수 없습니다. 열화율로 따지면 Gemini Embedding 2가 가장 우수합니다. 다만 대체로 mxbai-embed-large 이외에는 그리 열화되지 않는 것 같습니다.

종합 평가

이번 페이지에서 소개하지 않은 지표를 포함한 종합 평가입니다.

모델Cross-ModalCross-LingualKey InfoMRL ρ
Gemini Embedding 20.9280.9971.0000.668
...
Gemini Embedding 2의 MRL ρ 값이 다르지만 실수일 수도 있습니다.

요약

Qwen3-VL-2B, Gemini Embedding 2, Voyage Multimodal 3.5 세 가지 정도가 전반적으로 좋아 보인다고 생각했습니다. Jina CLIP v2는 그 다음이겠네요. 각각 살펴보겠습니다.

Qwen3-VL-2B

오픈 소스이므로 자체 인프라나 GPU가 장착된 클라우드에서 운용하는 형태가 될 것이라 생각합니다. API가 아니므로 정보가 유출되지 않는 설계이지만, 중국 기업 개발이기 때문에 지정학적 리스크를 고려할 필요가 있습니다.

Gemini Embedding 2

Google Cloud의 API로 이용할 수 있기 때문에 인프라 관리가 필요 없습니다. Vertex AI나 Gemini API를 통해 호출하기만 하면 바로 사용할 수 있으므로, 이미 Google Cloud를 이용 중인 환경이라면 즉시 도입할 수 있습니다. 다만, 2026년 4월 5일 현재 퍼블릭 프리뷰 (Public Preview) 버전이므로 이 점은 주의가 필요합니다.

(추가: 2026년 4월 하순에 GA·일반 제공(General Availability)되었습니다)

Voyage Multimodal 3.5

무난하게 선택한다면 이것이 가장 좋을지도 모릅니다. Voyage AI의 API로 이용합니다.

Jina CLIP v2 / Jina Embeddings v4

Jina는 오픈 소스 (Open Source)로 제공되며, API도 이용 가능합니다.

Discussion

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0