Hugging Face Transformers v5.5.0 릴리즈: Gemma 4, NomicBERT 등 주요 모델 추가 및 성능 개선
요약
Transformers 라이브러리 v5.5.0이 출시되며, 최신 멀티모달 모델인 Gemma 4와 고성능 임베딩 모델 NomicBERT가 핵심적으로 추가되었습니다. 특히 Gemma 4는 이미지의 자연스러운 종횡비를 유지하면서도 고정된 토큰 예산으로 다양한 크기의 이미지를 처리할 수 있는 혁신적인 비전 프로세서를 갖추었습니다. 또한, 음악 이해에 특화된 Music Flamingo와 Mamba 기반 모델을 위한 네이티브 캐시 지원 등 전반적인 성능과 안정성이 대폭 향상되었습니다. 개발자들은 최신 기능을 활용하여 멀티모달 및 임베딩 태스크
핵심 포인트
- **Gemma 4 추가:** 1B, 13B, 27B 파라미터로 제공되는 Gemma 4는 고정 토큰 예산으로 다양한 크기의 이미지를 처리하며 자연스러운 종횡비를 유지하는 비전 프로세서가 특징입니다.
- **NomicBERT 도입:** OpenAI의 최신 모델을 능가하는 성능을 보여주는 NomicBERT 임베딩 모델이 추가되어, 검색 및 분류 등 다양한 태스크에서 높은 재현성을 제공합니다.
- **Music Flamingo 지원:** 음악에 특화된 대규모 오디오-언어 모델인 Music Flamingo가 도입되었으며, 최대 20분 길이의 오디오 시퀀스를 처리할 수 있습니다.
- **Mamba/Hybrid 캐시 개선:** Mamba 기반 및 하이브리드 모델 사용자는 네이티브 캐시 클래스 업데이트를 통해 안정성을 확보해야 합니다.
- **성능 최적화:** 파일 레벨 및 AST 레벨 디스크 캐싱 도입으로 리포지토리 체크(check-repo) 속도가 최대 27배 향상되었습니다.
Hugging Face Transformers 라이브러리 v5.5.0이 출시되면서, AI 모델 생태계의 최신 트렌드를 반영한 여러 핵심 기능과 고성능 모델들이 대거 추가 및 개선되었습니다.
🚀 주요 신규 모델 및 아키텍처 업데이트
1. Gemma 4 (멀티모달):
Gemma 4는 1B, 13B, 27B 파라미터로 제공되는 멀티모달 모델입니다. 이전 Gemma 버전과 유사한 구조를 가지지만, 비전 프로세서(vision processor)가 핵심적으로 개선되었습니다. 이 비전 프로세서는 고정된 토큰 예산(fixed token budget)을 사용하여 이미지의 자연스러운 종횡비(natural aspect ratio)를 유지하면서 다양한 크기의 이미지를 처리할 수 있게 합니다. 이는 기존 모델들이 모든 이미지를 224x224와 같은 고정 사각형으로 강제 압축하던 방식에서 벗어난 혁신적인 설계입니다.
2. NomicBERT (임베딩):
NomicBERT는 BERT 기반의 인코더 모델로, 재현 가능한(reproducible) 긴 컨텍스트 텍스트 임베딩을 생성합니다. 이 모델은 최대 8192 길이의 컨텍스트를 지원하며, 단기/장기 컨텍스트 MTEB 및 LoCo 벤치마크에서 OpenAI Ada-002와 text-embedding-3-small보다 우수한 성능을 입증했습니다.
3. Music Flamingo (오디오-언어):
Music Flamingo는 음악 이해에 초점을 맞춘 완전 개방형(fully open) 대규모 오디오-언어 모델입니다. Audio Flamingo 3 아키텍처를 기반으로 Rotary Time Embeddings (RoTE)를 통합하여, 최대 20분 길이의 오디오 시퀀스를 처리할 수 있는 능력을 갖추었습니다.
✨ 기술적 개선 및 안정성 강화
1. Mamba/하이브리드 캐시 네이티브 지원:
Mamba 기반 또는 하이브리드(Mamba + attention) 모델을 사용하는 사용자는 라이브러리 내에서 Mamba와 하이브리드 모델 캐시가 이제 'First-class native citizens'로 취급됨에 따라, 이전의 임시 방편(workarounds) 대신 새로운 네이티브 캐시 클래스를 사용하도록 코드를 업데이트해야 합니다. 이는 시스템 안정성을 높이는 중요한 변경 사항입니다.
2. 비전 및 토크나이저 버그 수정:
다수의 비전 관련 버그가 해결되었습니다. 특히 Gemma의 비전 마스크를 영상 입력(video inputs)까지 지원하도록 일반화했으며, PIL 기반 이미지 프로세서에서 torchvision 의존성 요구 오류를 수정하여 호환성을 높였습니다.
3. 성능 최적화 (Caching):
리포지토리 체크(check-repo) 기능에 파일 레벨 및 AST 레벨 디스크 캐싱을 도입하여, 워밍업된(warm cache) 환경에서 속도가 최대 27배까지 향상되었습니다 (약 46초 $
ightarrow$ 약 1.6초).
이 업데이트는 개발자들이 최신 멀티모달, 임베딩 기술을 활용하고 라이브러리 사용의 안정성과 효율성을 극대화할 수 있도록 지원합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HuggingFace Transformers Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기