본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 29. 20:22

BGE-VL: 텍스트-이미지, 이미지-텍스트 및 이미지-프롬프트-이미지 검색을 포함한 모든 조합의 시각적 검색을 가능하게 하는 멀티모달 임베딩

요약

BGE-VL은 텍스트-이미지, 이미지-텍스트 등 다양한 조합의 시각적 검색을 지원하는 멀티모달 임베딩 모델입니다. MIT 라이선스로 공개되어 학술 및 상업적 활용이 가능하며, MegaPairs 합성 데이터셋을 통해 학습되었습니다.

핵심 포인트

  • 텍스트-이미지 및 이미지-텍스트 등 모든 조합의 시각적 검색 지원
  • 다양한 멀티모달 검색 태스크에서 최첨단(SOTA) 성능 달성
  • MIT 라이선스로 공개되어 자유로운 학술 및 상업적 이용 가능
  • BGE 원스톱 검색 툴킷의 일부로 RAG 및 검색 시스템에 활용 가능

BGE-VL은 텍스트-이미지 (text-to-image), 이미지-텍스트 (image-to-text), 그리고 이미지-및-프롬프트-이미지 (image-and-prompt-to-image) 검색을 포함하여 모든 조합의 시각적 검색을 가능하게 하는 멀티모달 임베딩 (multimodal embedding) 모델입니다.

  • 다양한 시각적 검색 태스크를 위한 최첨단 (State-of-the-art) 멀티모달 임베딩
  • 학술 및 상업적 용도로 자유롭게 사용할 수 있도록 MIT 라이선스로 공개
  • 학습을 위해 MegaPairs 합성 데이터셋 (synthetic dataset) 활용
  • 검색 및 RAG를 위한 BGE 원스톱 검색 툴킷 (retrieval toolkit)의 일부
    [IMG:1]

AI 자동 생성 콘텐츠

본 콘텐츠는 X @githubprojects (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0