Hugging Face Transformers v5.3.0: 최신 모델 및 아키텍처 업데이트 정리
요약
Hugging Face Transformers 라이브러리가 v5.3.0 버전을 출시하며 다양한 분야의 최신 모델들을 추가하고 아키텍처 개선 사항을 발표했습니다. 주요 업데이트로는 다국어 지원이 강화된 EuroBERT, 60분 분량의 오디오 입력을 처리하는 VibeVoice ASR 등 음성 인식(ASR) 기능의 대폭 향상이 눈에 띕니다. 또한 시계열 예측을 위한 TimesFM 2.5와 문서 레이아웃 분석 전용 PP-DocLayoutV2 같은 전문 모델들이 추가되어, AI 기반 애플리케이션 개발자들이 다양한 도메인에서 최신 성능을 확보
핵심 포인트
- **EuroBERT:** Llama과 유사한 트랜스포머 구조를 가지며 양방향 어텐션(bidirectional attention)을 사용하여 유럽 및 주요 언어의 다국어 인코딩 기능을 제공합니다.
- **VibeVoice ASR:** 24kHz 오디오 처리와 Qwen2 기반 디코더를 결합하여 최대 60분 분량의 연속 음성 입력을 지원하며, 다이아리제이션(diarization) 및 코드 스위칭을 포함한 고급 기능을 제공합니다.
- **TimesFM 2.5:** 회전 어텐션(rotary attention), QK 정규화 등을 개선하여 데이터셋별 학습 없이도 다양한 도메인에서 정확한 제로샷 시계열 예측이 가능합니다.
- **PP-DocLayoutV2:** 문서 레이아웃 분석에 특화된 경량 모델로, RT-DETR 기반 탐지 및 포인터 네트워크를 결합하여 요소 식별과 읽기 순서 예측을 수행합니다.
- **Higgs Audio V2:** 1천만 시간 이상의 오디오 데이터로 사전 학습되었으며, 제로샷 음성 복제(zero-shot voice cloning) 등 표현력이 뛰어난 다양한 오디오 생성 작업을 지원하는 강력한 기반 모델입니다.
Hugging Face Transformers v5.3.0 릴리스는 자연어 처리(NLP), 음성 인식(ASR), 시계열 예측, 비전-언어 이해 등 광범위한 분야에 걸쳐 최신 연구 성과를 반영하는 다양한 모델들을 통합했습니다.
🌐 다국어 및 언어 이해 강화
EuroBERT: Llama와 유사하지만 양방향 어텐션(bidirectional attention)을 채택하여 유럽 및 주요 언어를 지원하는 다국어 인코더 모델입니다. 최대 8192 토큰의 시퀀스를 처리할 수 있어 광범위한 언어 이해 작업에 활용 가능합니다.
OlmoHybrid: Ai2에서 개발된 하이브리드 아키텍처로, 표준 트랜스포머 어텐션과 Gated Deltanet을 사용한 선형 어텐션(linear attention) 레이어를 결합했습니다. 이 방식을 통해 모델의 효율성을 높이면서도 성능 저하를 최소화하는 것이 목표입니다.
ModernVBert & ColModernVBert: 시각-언어 이해 및 문서 검색에 최적화된 비전-언어 인코더입니다. ModernBert와 SigLIP 비전 인코더를 결합한 ModernVBert는 텍스트와 이미지가 혼재된 문서를 처리하는 데 적합하며, ColModernVBert는 이를 활용하여 다중 벡터 임베딩을 생성함으로써 문서 이미지 기반의 효율적인 검색 및 점수 산출이 가능합니다.
🎤 음성 인식 (ASR) 및 오디오 생성 혁신
VibeVoice ASR: Microsoft에서 개발한 이 모델은 음향 토크나이저와 의미론적(semantic) 오디오 토크나이저를 결합하고, Qwen2 기반의 인과 언어 모델(causal language model)을 사용하여 강력한 STT(Speech-to-Text) 전사 기능을 제공합니다. 최대 60분 분량의 연속 오디오 입력을 처리하며, 다이아리제이션(diarization), 타임스탬핑(timestamping), 그리고 50개 이상의 언어 코드 스위칭까지 지원하는 등 전문성이 매우 높습니다.
Higgs Audio V2: Boson AI가 개발한 강력한 오디오 기반 모델입니다. 1,000만 시간 이상의 방대한 오디오 데이터와 텍스트 데이터를 통해 사전 학습되었음에도 불구하고 미세 조정(fine-tuning) 없이도 뛰어난 표현력을 보여줍니다. 단일/다중 화자 스마트 음성 생성, 제로샷 음성 복제(zero-shot voice cloning), 다중 화자 음성 복제 등 다양한 오디오 생성 작업을 지원합니다.
Higgs Audio V2 Tokenizer: 25fps의 낮은 프레임률에서 높은 음질을 유지하는 오디오 토크나이저입니다. 스피치, 음악, 사운드 이벤트를 통합 학습하여 의미론적 및 음향적 세부 정보를 모두 포착하며, 확산 과정(diffusion steps)을 생략해 실시간 또는 대규모 작업에 빠르게 추론할 수 있습니다.
📊 전문 도메인 특화 모델
TimesFM 2.5: 전처리된 시계열 기반 모델로, 디코더 온리 어텐션 아키텍처와 입력 패칭(input patching)을 사용합니다. 회전 어텐션(rotary attention), QK 정규화 등을 개선하여 데이터셋별 학습 없이도 다양한 도메인과 예측 지평에서 정확한 제로샷 시계열 예측이 가능하도록 설계되었습니다.
PP-DocLayoutV2: 문서 레이아웃 분석에 특화된 경량 모델입니다. RT-DETR 기반의 탐지 및 분류와 포인터 네트워크를 순차적으로 연결하여, 문서 내의 다양한 구성 요소를 정확하게 식별하고 올바른 읽기 순서(reading order)로 배열하는 데 중점을 둡니다.
🛠️ 주요 아키텍처 변경 사항 (Breaking Changes)
이번 버전에서는 기술적인 안정성 향상과 API 통일화 작업이 이루어졌습니다. 트랜스포머 병렬 처리(Tensor Parallelism, TP) 지원이 개선되었으며, vLLM/SGLang 컨벤션에 맞추기 위해 일부 모델 클래스 이름이 변경되었습니다. 또한, V5 클린업 과정에서 질문 응답(Question-Answering), 시각 질의응답(VQA) 등 여러 파이프라인 작업이 업데이트되거나 제거되었으므로, 사용자들은 최신 대체 파이프라인이나 태스크 이름을 확인하고 마이그레이션해야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HuggingFace Transformers Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기