X요약2026. 06. 29. 20:22

BGE-VL: 텍스트-이미지, 이미지-텍스트 및 이미지-프롬프트-이미지 검색을 포함한 모든 조합의 시각적 검색을 가능하게 하는 멀티모달 임베딩

요약

BGE-VL은 텍스트-이미지, 이미지-텍스트 등 다양한 조합의 시각적 검색을 지원하는 멀티모달 임베딩 모델입니다. MIT 라이선스로 공개되어 학술 및 상업적 활용이 가능하며, MegaPairs 합성 데이터셋을 통해 학습되었습니다.

핵심 포인트

텍스트-이미지 및 이미지-텍스트 등 모든 조합의 시각적 검색 지원
다양한 멀티모달 검색 태스크에서 최첨단(SOTA) 성능 달성
MIT 라이선스로 공개되어 자유로운 학술 및 상업적 이용 가능
BGE 원스톱 검색 툴킷의 일부로 RAG 및 검색 시스템에 활용 가능

BGE-VL은 텍스트-이미지 (text-to-image), 이미지-텍스트 (image-to-text), 그리고 이미지-및-프롬프트-이미지 (image-and-prompt-to-image) 검색을 포함하여 모든 조합의 시각적 검색을 가능하게 하는 멀티모달 임베딩 (multimodal embedding) 모델입니다.

다양한 시각적 검색 태스크를 위한 최첨단 (State-of-the-art) 멀티모달 임베딩
학술 및 상업적 용도로 자유롭게 사용할 수 있도록 MIT 라이선스로 공개
학습을 위해 MegaPairs 합성 데이터셋 (synthetic dataset) 활용
검색 및 RAG를 위한 BGE 원스톱 검색 툴킷 (retrieval toolkit)의 일부
[IMG:1]

AI 자동 생성 콘텐츠

원문 바로가기

BGE-VL: 텍스트-이미지, 이미지-텍스트 및 이미지-프롬프트-이미지 검색을 포함한 모든 조합의 시각적 검색을 가능하게 하는 멀티모달 임베딩

요약

핵심 포인트

댓글