Transformers헤드라인2026. 04. 24. 03:58

Transformers v5.4.0 릴리즈: Mistral 4, VidEoMT 등 최신 모델 대거 추가

요약

Hugging Face Transformers 라이브러리가 v5.4.0 버전을 출시하며 다양한 최첨단 모델들을 대거 지원합니다. 주요 업데이트로는 범용성과 추론 능력을 결합한 하이브리드 모델 'Mistral 4', 온라인 비디오 분할을 위한 경량 모델 'VidEoMT'가 포함됩니다. 또한, 다국어 및 장문 처리가 가능한 임베딩 모델 'Jina Embeddings v3'와 로봇 작업을 위한 시각-언어-행동 모델 'PI0' 등 전문 분야의 최신 기술들이 추가되어 개발자들이 더욱 폭넓고 강력한 AI 애플리케이션을 구축할 수 있게 되면서,

핵심 포인트

**Mistral 4:** 일반 지시(Instruction) 및 추론 능력을 통합한 하이브리드 모델로, MoE 아키텍처 기반이며 최대 256k 컨텍스트 길이와 멀티모달 입력을 지원합니다.
**VidEoMT:** 경량의 인코더 전용 모델로 온라인 비디오 분할에 특화되었으며, 기존 방식 대비 5배~10배 빠른 속도(최대 160 FPS)를 달성했습니다.
**Jina Embeddings v3:** XLM-RoBERTa 기반의 다국어/다태스크 임베딩 모델로, RoPE를 통해 최대 8192 토큰까지 지원하며 5개의 LoRA 어댑터를 내장했습니다.
**PI0:** 로봇 작업을 위한 시각-언어-행동(Vision-Language-Action) 모델로, 복잡한 일상생활 작업(예: 빨래 접기, 테이블 청소)을 수행할 수 있습니다.

Hugging Face Transformers 라이브러리가 v5.4.0 릴리즈를 통해 AI 개발 생태계에 혁신적인 모델들을 대거 추가하며 그 활용 범위를 확장했습니다. 이번 업데이트는 단순한 기능 개선을 넘어, 비디오 처리, 로봇 공학, 고급 임베딩 등 전문 분야의 최첨단 아키텍처들을 지원하는 것이 특징입니다.

1. Mistral 4: 하이브리드 추론 모델의 진화
가장 주목할 만한 추가 모델 중 하나는 'Mistral 4'입니다. 이 모델은 기존의 범용 지시(Instruction) 모델과 전문적인 추론(Reasoning) 능력을 하나의 통합된 아키텍처로 결합했습니다. MoE (Mixture-of-Experts) 구조를 채택했으며, 128개의 전문가(experts)와 총 119B 파라미터를 가지면서도 토큰당 평균 6.5B가 활성화되는 효율성을 보여줍니다. 특히 최대 256k의 긴 컨텍스트 길이를 지원하며 텍스트뿐만 아니라 이미지까지 처리할 수 있는 멀티모달(multimodal) 기능을 제공하여, 복잡한 추론 기반 애플리케이션에 최적화되어 있습니다.

2. VidEoMT: 초고속 비디오 분할의 새 기준
'VidEoMT (Video Encoder-only Mask Transformer)'는 온라인 비디오 분할(online video segmentation)을 위해 설계된 경량 인코더 전용 모델입니다. 기존 방식에서 필수적이었던 별도의 추적 모듈(tracking module)의 필요성을 제거했습니다. 대신, 프레임 간 정보를 전달하는 가벼운 쿼리 전파 메커니즘(query propagation mechanism)과 시간적으로 독립적인 학습된 쿼리를 결합하는 융합 전략(query fusion strategy)을 도입하여 성능을 극대화했습니다. 이 덕분에 VidEoMT는 경쟁력 있는 정확도를 유지하면서도, ViT-L 백본으로 최대 160 FPS에 달하는 초고속 처리 속도를 구현하며 기존 접근 방식 대비 5배에서 10배 빠른 효율성을 자랑합니다.

3. Jina Embeddings v3: 장문 및 다국어 임베딩의 완성도 향상
'Jina-Embeddings-v3'는 다양한 NLP 애플리케이션을 위해 설계된 다국어(multilingual) 및 다태스크(multi-task) 텍스트 임베딩 모델입니다. XLM-RoBERTa 아키텍처를 기반으로 하며, 절대 위치 임베딩(absolute position embeddings) 대신 RoPE (Rotary Position Embeddings)를 채택하여 최대 8192 토큰까지의 긴 입력 시퀀스를 안정적으로 처리할 수 있습니다. 또한, 추론 지연 시간 증가 없이 검색(retrieval)이나 분류(classification) 등 특정 작업에 특화된 임베딩을 생성할 수 있도록 5개의 내장형 Task-Specific LoRA 어댑터가 탑재되어 개발 편의성을 높였습니다.

4. 로봇 공학 및 문서 이해 전문 모델들
이번 업데이트는 전문 분야에서도 깊이 있는 지원을 제공합니다.

PI0: 시각-언어-행동(Vision-Language-Action) 모델로, 비전 관찰과 언어 지침을 결합하여 로봇 행동을 생성합니다. 빨래 접기, 테이블 청소 등 복잡한 조작 작업을 여러 로봇 플랫폼에서 수행할 수 있습니다.
SLANeXt: 문서 및 자연 환경의 테이블 구조 인식에 특화된 경량 모델입니다. 유선(wired) 및 무선(wireless) 테이블 구조 모두를 정확하게 식별하는 능력이 크게 향상되었습니다.
PP-OCRv5 계열: 다국어, 손글씨, 세로쓰기 등 복잡한 텍스트 시나리오에 대응하기 위해 'PP-OCRv5_mobile_rec', 'PP-OCRv5_server_rec' 등의 경량화된 OCR 모델들이 추가되어 문서 이해의 정확도와 효율성을 동시에 확보했습니다.

이러한 폭넓은 지원 덕분에 개발자들은 최신 연구 결과를 즉시 프로덕션 레벨 서비스에 통합할 수 있는 강력한 도구를 얻게 되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Transformers v5.4.0 릴리즈: Mistral 4, VidEoMT 등 최신 모델 대거 추가

요약

핵심 포인트

댓글