HuggingFace헤드라인2026. 05. 06. 19:41

Sentence Transformers 가 Hugging Face 에 합류합니다!

요약

Sentence Transformers는 의미론적 임베딩 생성을 위한 핵심 오픈 소스 라이브러리로, 2019년 Nils Reimers에 의해 개발된 이래 NLP 연구 및 실무 분야에서 광범위하게 채택되어 왔습니다. 최근 Hugging Face Hub와 공식적으로 통합되면서 그 영향력이 더욱 커졌으며, 현재는 커뮤니티 주도 오픈 소스 프로젝트로서 지속적인 성장을 예고하고 있습니다.

핵심 포인트

Sentence Transformers는 의미론적 검색, 텍스트 유사성 비교 등 NLP의 핵심 작업에 사용되는 고품질 임베딩을 생성합니다.
2019년 개발된 이래 다국어 지원(400개 이상 언어) 및 Cross Encoder/Sparse Encoder 기능 추가 등 지속적인 발전과 확장성을 보여주었습니다.
Hugging Face Hub와의 공식 통합은 프로젝트의 접근성과 글로벌 채택률을 크게 높였으며, 16,000개가 넘는 모델이 공개되었습니다.
본 프로젝트는 Technische Universität Darmstadt의 UKP Lab에서 시작되었으며, 커뮤니티 주도(community-driven) 오픈 소스 정신을 유지하며 지속적으로 발전할 것입니다.

Sentence Transformers (또는 SentenceBERT 또는 SBERT) 는 의미론적 의미를 포착하는 고품질의 임베딩을 생성하기 위해 널리 사용되는 오픈 소스 라이브러리입니다. Nils Reimers 의 2019 년 창립 이후, Sentence Transformers 는 연구원 및 실무자들이 자연어 처리 (NLP) 작업의 다양한 분야, 즉 의미론적 검색, 의미론적 텍스트 유사성, 클러스터링, 그리고 패러프레이징 마이닝을 위해 광범위하게 채택되었습니다. 커뮤니티에 의해 개발되고 훈련된 후 수 년이 지나, Hugging Face Hub 에 공개적으로 사용 가능한 Sentence Transformers 모델은 16,000 개를 초과하며, 월별 고유 사용자 수는 100 만 명을 넘깁니다.

"Sentence Transformers 는 우리 연구실에서 전체 연구실의 의미론적 유사성 계산에 대한 장기적인 연구를 집대성한 성공 사례이며 매우 시의적절한 발견을 한 Nils Reimers 의 업적입니다. 그는 탁월한 연구 결과를뿐만 아니라 매우 유용한 도구를 제공했습니다. 이는 자연어 처리 및 AI 분야의 학생들과 실무자들에게 세대를 걸쳐 영향을 미치고 있습니다. 또한 이 프로젝트가 오늘날의 모습으로 이루어지지 않았음에 따라 모든 사용자들, 특히 기여자들에게 감사드립니다. 마지막으로, 이 프로젝트를 미래로 이끌 해 Tom 과 Hugging Face 에 감사드립니다."

Prof. Dr. Iryna Gurevych, TU Darmstadt Ubiquitous Knowledge Processing Lab 소장

"Hugging Face 가족에 Sentence Transformers 를 공식적으로 환영하게 되어 기쁩니다! 지난 2 년 동안, UKP Lab 의 놀라운 기반과 그 주변의 멋진 커뮤니티 덕분에 이 프로젝트가 거대한 글로벌 채택으로 성장해 온 것을 보며 놀랐습니다. 이것이 시작일 뿐입니다: 우리는 여전히 그 첫날부터 번창할 수 있도록 만든 개방적이고 협력적인 정신을 유지하며, 이를 지원하고 혁신하는 성장을 계속 가속화하겠습니다."

Clem Delangue, Hugging Face 공동 창업자 및 CEO

Sentence Transformers 는 커뮤니티 주도 (community-driven), 오픈 소스 (open-source) 프로젝트로 계속될 것이며, 이전과 동일한 **오픈 소스 라이선스 (Apache 2.0)**를 유지합니다. 연구원, 개발자, 애호가들의 기여는 환영되며 권장됩니다. 프로젝트는 투명성, 협력, 그리고 광범위한 접근성을 최우선으로 계속할 것입니다.

Sentence Transformers 라이브러리는 Technische Universität Darmstadt 의 Ubiquitous Knowledge Processing (UKP) Lab 에서 Dr. Nils Reimers 가 2019 년에 소개되었습니다. Prof. Dr. Iryna Gurevych 의 지도 하에 있습니다. 표준 BERT 임베딩의 제한으로 인해, Sentence-BERT 는 시아미스 네트워크 구조를 사용하여 코사인 유사성을 통해 효율적으로 비교할 수 있는 의미론적 문장 임베딩을 생성했습니다. 모듈형 오픈 소스 설계와 의미론적 텍스트 유사성, 클러스터링, 정보 검색 등의 작업에서의 강력한 경험적 성능 덕분에, 이 라이브러리는 NLP 연구 도구킷의 필수품이 되어了一系列의 후속 작업과 고품질 문장 표현에 의존하는 실제 응용 프로그램을 생성했습니다."

2020 년에 라이브러리는 다국어 지원이 추가되어 문장 임베딩을 400 개 이상의 언어로 확장했습니다. 2021 년에는 Nandan Thakur 와 Dr. Johannes Daxenberger 의 기여로 라이브러리가 Cross Encoder 과 Sentence Transformer 모델을 사용하여 쌍 (pair-wise) 문점수 평가까지 지원하도록 확장되었습니다. Sentence Transformers 는 또한 Hugging Face Hub (v2.0) 와 통합되었습니다. UKP Lab 팀은 4 년 이상 이 커뮤니티 기반 오픈소스 프로젝트로서 라이브러리를 유지 관리하며 연구 기반 혁신을 지속적으로 제공했습니다. 이 기간 동안 프로젝트 개발은 독일 연구재단 (DFG), 독일 연방 교육 및 연구부 (BMBF), 헤센 주 고등교육·연구·예술부 (HMWK) 의 Prof. Gurevych 에 대한 기금 지원으로 뒷받침되었습니다.

2023 년 말, Hugging Face 의 Tom Aarsen 이 라이브러리 유지 관리자를 맡아 Sentence Transformer 모델 (v3.0) 의 현대화된 훈련을 소개하고 Cross Encoder (v4.0) 과 Sparse Encoder (v5.0) 모델을 개선했습니다.

Technische Universität Darmstadt 의 Ubiquitous Knowledge Processing (UKP) Lab 는 Prof. Dr. Iryna Gurevych 를 이끌며 자연어 처리 (NLP) 와 머신러닝 연구 분야에서 국제적으로 인정받고 있습니다. 이 라브는 표현 학습, 대형 언어 모델, 정보 검색 분야에서의 선구적 작업으로 수많은 논문과 저널에서 발표된 바 있으며, Sentence Transformers 를 넘어 다양한 데이터셋, 벤치마크 및 오픈소스 도구를 개발하여 학술 연구와 현실 세계 응용을 지원합니다.

Hugging Face 는 프로젝트에 대한 헌신과 유지 관리 및 현재 관리를 맡겨주신 UKP Lab 와 모든 과거 및 현재 기여자, 특히 Dr. Nils Reimers 와 Prof. Dr. Iryna Gurevych 에 감사드립니다. 또한 모델 기여, 버그 리포트, 기능 요청, 문서 개선, 현실 세계 응용을 통해 라이브러리의 성공에 기여한 연구자, 개발자, 실무자들의 커뮤니티에도 감사를 표합니다. 우리는 UKP Lab 가 마련한 강력한 기반 위에 계속 구축하고 Sentence Transformers 의 능력을 더욱 발전시키기 위해 커뮤니티와 함께 할 것을 기대합니다.

Sentence Transformers 에 새로이 입문하거나 그 기능을 탐구하려는 분들을 위한 안내:

문서: https://sbert.net
GitHub 저장소: https://github.com/huggingface/sentence-transformers
Hugging Face Hub 의 모델: https://huggingface.co/models?library=sentence-transformers
빠른 시작 튜토리얼: https://sbert.net/docs/quickstart.html

Sentence Transformers 가 Hugging Face 에 의해 유지 관리되기 시작한 이후 가장 중요한 업데이트들 (순서대로):

Sentence Transformers 를 사용하여 임베딩 모델 훈련 및 파인튜닝: 밀도 임베딩 모델의 현대적인 훈련 API.
Sentence Transformers 를 사용하여 리랭커 (Reranker) 모델 훈련 및 파인튜닝: Cross Encoder (리랭커) 모델에 대한 동등한 훈련 API.
Sentence Transformers 를 사용하여 희소 임베딩 모델 훈련 및 파인튜닝: 희소 인코더 (SPLADE) 모델에 대한 동등한 훈련 API.
Multimodal 임베딩 및 리랭커 모델을 Sentence Transformers 와 함께: 동일한 API 를 통해 텍스트, 이미지, 오디오, 비디오 모델 지원 추가.
Multimodal 임베딩 및 리랭커 모델 훈련 및 파인튜닝: 멀티모달 추론 포스트의 훈련 동반자.

Sentence Transformers 가 Hugging Face 에 합류합니다!

요약

핵심 포인트

댓글