이미지와 텍스트 Embedding에서 최적의 모델 탐색하기 (2026년 4월)

RAG (검색 증강 생성, Retrieval-Augmented Generation)나 멀티모달 (Multimodal) 검색의 정밀도를 좌우하는 것은 Embedding (임베딩) 모델의 선정입니다. 본 기사에서는 이미지와 텍스트를 다루는 Embedding 모델에 대해, 2026년 4월 시점의 벤치마크를 조사한 결과를 정리합니다.

(추가: 본문 중에서 퍼블릭 프리뷰 (Public Preview)라고 기재한 Gemini Embedding 2는, 2026년 4월 하순에 GA · 일반 제공되었습니다)

멀티모달 모델

최근에는 텍스트뿐만 아니라 이미지나 영상 등도 입력으로 다룰 수 있는 모델이 등장하고 있는데, 그것들은 멀티모달 (Multimodal) 모델이라고 불립니다.

이번에는 멀티모달 모델 Embedding의 벤치마크를 살펴보겠습니다.

벤치마크의 종류

일반적인 Embedding 벤치마크는 다음과 같다고 생각됩니다.

MTEB (Massive Text Embedding Benchmark): 텍스트 Embedding
MMEB (Massive Multimodal Embedding Benchmark): 멀티모달 Embedding

이번에 필요한 것은 MMEB이며 Hugging Face에 게재되어 있습니다만, 중요한 Gemini Embedding 2가 누락되어 있습니다. 따라서 다른 것을 찾아보겠습니다.

CCKM (Cross-modal, Cross-lingual, Key information, MRL)

이것은 Milvus (벡터 데이터베이스) 페이지에 있는 벤치마크입니다. MTEB나 MMEB에서 누락된 관점을 보완하고 있다고 알려져 있습니다. Gemini Embedding 2가 포함되어 있으므로, 이것을 참고해 나가겠습니다.

텍스트와 이미지의 Embedding

텍스트와 이미지를 동일한 벡터 공간에 임베딩하는 비교는 아래 결과와 같습니다.

모델	스코어 (R@1)	Modality Gap	파라미터 수
Qwen3-VL-2B	0.945	0.25	2B (오픈 소스)
...
Qwen, Gemini, Voyage의 3강 체제입니다. Voyage는 Modality Gap은 낮지만 Gemini에게 밀리고 있는데, 다른 요인으로 인해 낮아진 것으로 보입니다. Jina CLIP v2가 그 뒤를 잇고 있습니다.

MRL, 차원 수를 낮췄을 때의 성능

텍스트에서 차원 수를 잘라냈을 때의 비교로, MRL (Matryoshka Representation Learning)로 훈련되었는지 여부도 중요한 것 같습니다. 또한 텍스트만이며 이미지는 포함되어 있지 않으므로, 어디까지나 참고 정도로만 봐주시기 바랍니다.

모델	ρ (풀 차원)	ρ (256차원)	열화율
Voyage Multimodal 3.5	0.880	0.874	0.7%
...
Gemini Embedding 2의 풀 차원 값이 낮은 것은 테스트 종류에 따른 가능성이 있습니다. 또한 열화율이 마이너스로 되어 있습니다만, 이는 오차 범위 내라고 생각됩니다. 표 자체의 정렬이 풀 차원 값으로 이루어져 있어, 본래 열화율로 정렬해야 할 부분이라고 생각됩니다만, 의도는 알 수 없습니다. 열화율로 따지면 Gemini Embedding 2가 가장 우수합니다. 다만 대체로 mxbai-embed-large 이외에는 그리 열화되지 않는 것 같습니다.

종합 평가

이번 페이지에서 소개하지 않은 지표를 포함한 종합 평가입니다.

모델	Cross-Modal	Cross-Lingual	Key Info	MRL ρ
Gemini Embedding 2	0.928	0.997	1.000	0.668
...
Gemini Embedding 2의 MRL ρ 값이 다르지만 실수일 수도 있습니다.

요약

Qwen3-VL-2B, Gemini Embedding 2, Voyage Multimodal 3.5 세 가지 정도가 전반적으로 좋아 보인다고 생각했습니다. Jina CLIP v2는 그 다음이겠네요. 각각 살펴보겠습니다.

Qwen3-VL-2B

오픈 소스이므로 자체 인프라나 GPU가 장착된 클라우드에서 운용하는 형태가 될 것이라 생각합니다. API가 아니므로 정보가 유출되지 않는 설계이지만, 중국 기업 개발이기 때문에 지정학적 리스크를 고려할 필요가 있습니다.

Gemini Embedding 2

Google Cloud의 API로 이용할 수 있기 때문에 인프라 관리가 필요 없습니다. Vertex AI나 Gemini API를 통해 호출하기만 하면 바로 사용할 수 있으므로, 이미 Google Cloud를 이용 중인 환경이라면 즉시 도입할 수 있습니다. 다만, 2026년 4월 5일 현재 퍼블릭 프리뷰 (Public Preview) 버전이므로 이 점은 주의가 필요합니다.

(추가: 2026년 4월 하순에 GA·일반 제공(General Availability)되었습니다)

Voyage Multimodal 3.5

무난하게 선택한다면 이것이 가장 좋을지도 모릅니다. Voyage AI의 API로 이용합니다.

Jina CLIP v2 / Jina Embeddings v4

Jina는 오픈 소스 (Open Source)로 제공되며, API도 이용 가능합니다.

Insights