본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 04. 20:32

Google 의 새로운 효율적인 임베딩 모델 EmbeddingGemma 환영합니다

요약

Google DeepMind가 308M 파라미터와 2K 컨텍스트 윈도우를 갖춘 고효율 다국어 임베딩 모델인 EmbeddingGemma를 출시했습니다. 이 모델은 MTEB에서 최고 성능을 기록했으며, 100개 이상의 언어를 지원하며 양자화 시 낮은 메모리 사용량을 유지합니다. 또한, Gemma3 트랜스포머 백본을 기반으로 인코더 구조로 변환하여 검색 작업에 최적화되었으며, Fine-tuning을 통해 의료 등 특정 도메인에서 최고 수준의 성능을 발휘할 수 있습니다.

핵심 포인트

  • EmbeddingGemma는 308M 파라미터와 2K 컨텍스트 윈도우를 갖춘 고효율 다국어 임베딩 모델입니다.
  • Massive Text Embedding Benchmark (MTEB)에서 최고 성능을 기록했으며, 100개 이상의 언어를 지원합니다.
  • Gemma3 기반의 인코더 아키텍처를 사용하여 검색(Retrieval) 작업에 최적화되었으며, 일반 LLM보다 우수한 성능을 보입니다.
  • Matryoshka Representation Learning (MRL)을 통해 768차원 출력 벡터를 필요에 따라 다양한 차원으로 절단할 수 있어 효율성을 높였습니다.
  • 특정 도메인(예: 의료) 데이터셋으로 Fine-tuning하여 해당 분야에서 최첨단 성능을 달성할 수 있습니다.

오늘 Google 은 모바일 RAG 파이프라인, 에이전트 등용기에 새로운 가능성을 열어주는 308M 파라미터2K 컨텍스트 윈도우 를 갖춘 속도 및 효율성을 특징으로 하는 최신 다국어 임베딩 모델인 EmbeddingGemma 를 출시했습니다. 작성 시점에서 Massive Text Embedding Benchmark (MTEB) 에서 5 억 M 이하의 텍스트 전용 다국어 임베딩 모델 중 가장 높은 순위이며, 100 개 이상의 언어를 지원합니다.

텍스트 임베딩은 현대 자연어 애플리케이션의 핵심이 되어 단어, 문장, 문서에 의미를 포착하는 밀집 벡터로 변환합니다. 이러한 벡터는 거대한 컬렉션을 통한 빠른 유사도 검색, 클러스터링, 분류 및 검색을 가능하게 하여 추천 엔진과 의미론적 검색에서 리트리벌-증강 생성 (RAG) 과 코드 검색 도구까지 모든 것을 구동합니다. 이러한 임베딩을 계산하는 모델은 널리 사용되며 Hugging Face 에서 월 2 억 개 이상의 다운로드를 기록했습니다.

이러한 기반 위에 Google DeepMind 의 EmbeddingGemma 는 이제까지 가장 새로운, 가장 강력한 소형 다국어 임베딩 모델로 등장합니다. 308M 파라미터, 2k 토큰 컨텍스트 윈도우, 그리고 100 개 이상의 언어를 지원하며, 양자화 시 RAM 사용량을 200 MB 이하로 유지하면서도 Massive Multilingual Text Embedding Benchmark (MMTEB) 에서 최첨단 성능을 발휘합니다.

다양한 설계 선택은 일상 기기에서 고품질 다국어 임베딩을 계산하는 실용적인 오픈소스 도구를 제공합니다.

이 블로그 포스트에서는 EmbeddingGemma 의 아키텍처와 훈련 과정을 설명하고, Sentence Transformers, LangChain, LlamaIndex, Haystack, txtai, Transformers.js, Text Embedding Inference, ONNX 와 같은 다양한 프레임워크를 사용하여 모델을 사용하는 방법을 보여줍니다.

그 후, 도메인별 성능을 더욱 강화하기 위해 EmbeddingGemma 를 Fine-tune 하는 방법을 보여줍니다. 예시에서는 Medical Instruction and Retrieval Dataset (MIRIAD) 에서 EmbeddingGemma 를 Fine-tune 했습니다. 결과적으로 sentence-transformers/embeddinggemma-300m-medical 모델은 과학적 의학 논문 문서를 상세한 의학 질문에 응답하여 검색하는 작업에서 최첨단 성능을 달성했습니다. 이 모델은 해당 작업에서 2 배 크기의 모델을 능가합니다.

EmbeddingGemma 는 Gemma3 트랜스포머 백본을 기반으로 하지만 인과 (일방향) 주의 대신 양방향 attention 을 사용하도록 수정되었습니다. 이는 시퀀스의 초기 토큰이 후기 토큰에 접근할 수 있음을 의미하며, 아키텍처를 디코더에서 인코더로 변환합니다. 인코더 모델은 검색과 같은 임베딩 작업에서 LLM (디코더) 을 능가할 수 있습니다 (Weller et al., 2025). 이 백본을 통해 모델은 일반적인 검색 입력에 특히 큰 입력이 텍스트 임베딩에서 정보 손실을 초래하는 경우에도 충분히 처리할 수 있는 2048 토큰을 한 번에 처리할 수 있습니다.

새로운 Gemma3 기반 인코더 백본은 토큰 임베딩을 생성하며, 평균 풀링 레이어는 이러한 토큰 임베딩을 텍스트 임베딩으로 변환합니다. 마지막으로 두 개의 Dense 레이어는 텍스트 임베딩을 768 차원의 벡터로 최종 형태로 변환합니다.

EmbeddingGemma 모델은 Matryoshka Representation Learning (MRL) 로 훈련되어 768 차원 출력을 필요에 따라 512, 256 또는 128 차원으로 절단할 수 있습니다. 이는 더 빠른 다운스트림 처리 및 낮은 메모리와 디스크 공간 활용을 제공합니다. Sentence Transformers 사용법을 참조하여 이러한 절단을 수행하는 방법을 보여주는 스니펫을 확인하세요.

모델은 약 3 억 토큰으로 구성된 다국어 코퍼스 (공유된 웹 텍스트, 코드 및 기술 문서, 합성 작업 특화 예제) 를 사용하여 훈련되었습니다. 이 독점 데이터셋은 CSAM(아동 성폭력 자료), 민감한 데이터, 저품질 또는 불안전한 콘텐츠를 피하기 위해 필터링되었습니다.

EmbeddingGemma 는 MMTEB (Mu

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0