HuggingFace헤드라인2026. 05. 04. 20:32

Google 의 새로운 효율적인 임베딩 모델 EmbeddingGemma 환영합니다

요약

Google DeepMind가 308M 파라미터와 2K 컨텍스트 윈도우를 갖춘 고효율 다국어 임베딩 모델인 EmbeddingGemma를 출시했습니다. 이 모델은 MTEB에서 최고 성능을 기록했으며, 100개 이상의 언어를 지원하며 양자화 시 낮은 메모리 사용량을 유지합니다. 또한, Gemma3 트랜스포머 백본을 기반으로 인코더 구조로 변환하여 검색 작업에 최적화되었으며, Fine-tuning을 통해 의료 등 특정 도메인에서 최고 수준의 성능을 발휘할 수 있습니다.

핵심 포인트

EmbeddingGemma는 308M 파라미터와 2K 컨텍스트 윈도우를 갖춘 고효율 다국어 임베딩 모델입니다.
Massive Text Embedding Benchmark (MTEB)에서 최고 성능을 기록했으며, 100개 이상의 언어를 지원합니다.
Gemma3 기반의 인코더 아키텍처를 사용하여 검색(Retrieval) 작업에 최적화되었으며, 일반 LLM보다 우수한 성능을 보입니다.
Matryoshka Representation Learning (MRL)을 통해 768차원 출력 벡터를 필요에 따라 다양한 차원으로 절단할 수 있어 효율성을 높였습니다.
특정 도메인(예: 의료) 데이터셋으로 Fine-tuning하여 해당 분야에서 최첨단 성능을 달성할 수 있습니다.

오늘 Google 은 모바일 RAG 파이프라인, 에이전트 등용기에 새로운 가능성을 열어주는 308M 파라미터 와 2K 컨텍스트 윈도우 를 갖춘 속도 및 효율성을 특징으로 하는 최신 다국어 임베딩 모델인 EmbeddingGemma 를 출시했습니다. 작성 시점에서 Massive Text Embedding Benchmark (MTEB) 에서 5 억 M 이하의 텍스트 전용 다국어 임베딩 모델 중 가장 높은 순위이며, 100 개 이상의 언어를 지원합니다.

텍스트 임베딩은 현대 자연어 애플리케이션의 핵심이 되어 단어, 문장, 문서에 의미를 포착하는 밀집 벡터로 변환합니다. 이러한 벡터는 거대한 컬렉션을 통한 빠른 유사도 검색, 클러스터링, 분류 및 검색을 가능하게 하여 추천 엔진과 의미론적 검색에서 리트리벌-증강 생성 (RAG) 과 코드 검색 도구까지 모든 것을 구동합니다. 이러한 임베딩을 계산하는 모델은 널리 사용되며 Hugging Face 에서 월 2 억 개 이상의 다운로드를 기록했습니다.

이러한 기반 위에 Google DeepMind 의 EmbeddingGemma 는 이제까지 가장 새로운, 가장 강력한 소형 다국어 임베딩 모델로 등장합니다. 308M 파라미터, 2k 토큰 컨텍스트 윈도우, 그리고 100 개 이상의 언어를 지원하며, 양자화 시 RAM 사용량을 200 MB 이하로 유지하면서도 Massive Multilingual Text Embedding Benchmark (MMTEB) 에서 최첨단 성능을 발휘합니다.

다양한 설계 선택은 일상 기기에서 고품질 다국어 임베딩을 계산하는 실용적인 오픈소스 도구를 제공합니다.

이 블로그 포스트에서는 EmbeddingGemma 의 아키텍처와 훈련 과정을 설명하고, Sentence Transformers, LangChain, LlamaIndex, Haystack, txtai, Transformers.js, Text Embedding Inference, ONNX 와 같은 다양한 프레임워크를 사용하여 모델을 사용하는 방법을 보여줍니다.

그 후, 도메인별 성능을 더욱 강화하기 위해 EmbeddingGemma 를 Fine-tune 하는 방법을 보여줍니다. 예시에서는 Medical Instruction and Retrieval Dataset (MIRIAD) 에서 EmbeddingGemma 를 Fine-tune 했습니다. 결과적으로 sentence-transformers/embeddinggemma-300m-medical 모델은 과학적 의학 논문 문서를 상세한 의학 질문에 응답하여 검색하는 작업에서 최첨단 성능을 달성했습니다. 이 모델은 해당 작업에서 2 배 크기의 모델을 능가합니다.

EmbeddingGemma 는 Gemma3 트랜스포머 백본을 기반으로 하지만 인과 (일방향) 주의 대신 양방향 attention 을 사용하도록 수정되었습니다. 이는 시퀀스의 초기 토큰이 후기 토큰에 접근할 수 있음을 의미하며, 아키텍처를 디코더에서 인코더로 변환합니다. 인코더 모델은 검색과 같은 임베딩 작업에서 LLM (디코더) 을 능가할 수 있습니다 (Weller et al., 2025). 이 백본을 통해 모델은 일반적인 검색 입력에 특히 큰 입력이 텍스트 임베딩에서 정보 손실을 초래하는 경우에도 충분히 처리할 수 있는 2048 토큰을 한 번에 처리할 수 있습니다.

새로운 Gemma3 기반 인코더 백본은 토큰 임베딩을 생성하며, 평균 풀링 레이어는 이러한 토큰 임베딩을 텍스트 임베딩으로 변환합니다. 마지막으로 두 개의 Dense 레이어는 텍스트 임베딩을 768 차원의 벡터로 최종 형태로 변환합니다.

EmbeddingGemma 모델은 Matryoshka Representation Learning (MRL) 로 훈련되어 768 차원 출력을 필요에 따라 512, 256 또는 128 차원으로 절단할 수 있습니다. 이는 더 빠른 다운스트림 처리 및 낮은 메모리와 디스크 공간 활용을 제공합니다. Sentence Transformers 사용법을 참조하여 이러한 절단을 수행하는 방법을 보여주는 스니펫을 확인하세요.

모델은 약 3 억 토큰으로 구성된 다국어 코퍼스 (공유된 웹 텍스트, 코드 및 기술 문서, 합성 작업 특화 예제) 를 사용하여 훈련되었습니다. 이 독점 데이터셋은 CSAM(아동 성폭력 자료), 민감한 데이터, 저품질 또는 불안전한 콘텐츠를 피하기 위해 필터링되었습니다.

EmbeddingGemma 는 MMTEB (Mu

AI 자동 생성 콘텐츠

원문 바로가기

Google 의 새로운 효율적인 임베딩 모델 EmbeddingGemma 환영합니다

요약

핵심 포인트

댓글