Release v5.8.0: 새로운 모델 추가 및 기능 업데이트

요약

이번 v5.8.0 릴리스는 DeepSeek-V4와 같은 최신 MoE(Mixture of Experts) 언어 모델을 추가하고, Gemma 4 Assistant를 통해 스페큘레이티브 디코딩 기능을 강화했습니다. 또한, Granite Vision 4.1과 EXAONE 4.5와 같이 문서 이해 및 멀티모달 능력을 대폭 향상시킨 비전-언어 모델들이 도입되었습니다. 이 외에도 오디오 전사(GraniteSpeechPlus) 및 복잡한 구조의 표/수식 인식(PP-FormulaNet) 등 다양한 전문 분야의 기능을 업데이트했습니다.

핵심 포인트

DeepSeek-V4: Multi-head Latent Attention (MLA)와 Manifold-Constrained Hyper-Connections (mHC)를 도입한 차세대 MoE 아키텍처 기반 모델을 추가하여 성능을 향상시켰습니다.
멀티모달 기능 강화: Granite Vision 4.1과 EXAONE 4.5 등 전문적인 문서 추출 및 시각 이해 능력을 갖춘 최신 비전-언어 모델들이 도입되었습니다.
효율적 디코딩 개선: Gemma 4 Assistant는 KV 공유와 Cross-Attention을 활용하여 스페큘레이티브 디코딩을 가능하게 함으로써 추론 속도와 정확도를 높였습니다.
전문 분야 특화 기능 추가: 오디오 전사(GraniteSpeechPlus) 및 수식/표 구조 인식(PP-FormulaNet) 등 특정 도메인에 최적화된 모델 지원이 이루어졌습니다.

Release v5.8.0

새로운 모델 추가

DeepSeek-V4
DeepSeek-V4 는 DeepSeek 에서 개발한 차세대 MoE (Mixture of Experts) 언어 모델로, DeepSeek-V3 과 비교하여 여러 구조적 혁신을 도입했습니다. 이 아키텍처는 Multi-head Latent Attention (MLA) 를 하이브리드 로컬 + 장기 거리 attention 설계로 대체하고, 잔류 연결을 Manifold-Constrained Hyper-Connections (mHC) 로 교체하며, 처음 몇 개의 MoE 레이어를 정적 토큰 ID → 전문가 ID 해시 테이블로 부스트합니다. 이 구현은 DeepSeek-V4-Flash, DeepSeek-V4-Pro 및 그 -Base 사전 학습 변형을 포함하며, 같은 아키텍처를 공유하지만 너비, 깊이, 전문가 수 및 가중치가 다릅니다.

링크: 문서 | 논문

Add DeepSeek V4 (#45643) by @ArthurZucker in #45643

Gemma 4 Assistant
Gemma 4 Assistant 는 Multi-Token Prediction (MTP) 방법과 관련된 후보 생성기를 사용하여 Gemma 4 모델에 스페큘레이티브 디코딩을 가능하게 하는 작은 텍스트 전용 모델입니다. 이 모델은 다른 Gemma 4 모델과 동일한 Gemma4TextModel 백본을 공유하지만, 전체 모델에 걸쳐 KV 공유를 사용하여 목표 모델로 채워진 KV 캐시를 재사용하고 pre-fill 단계를 완전히 건너뜁니다. 이 아키텍처는 목표 모델의 컨텍스트를 최대한 활용하기 위해 cross-attention 을 포함하며, 드래프팅 라운드당 더 많은 드래프트 토큰을 정확하게 예측할 수 있습니다.

링크: 문서

First model (#45788) by @SindhuRaghuram97 in #45788

GraniteSpeechPlus
Granite Speech Plus 는 Granite Speech 의 변형으로, 프로젝트어를 향상시키기 위해 인코더의 최종 히든 상태와 임의의 중간 히든 상태의 접합을 특징 차원에서 소비합니다. 이 모델은 오디오 전사, 화자 주석 및 단어 수준 타임스탬프를 텍스트 프롬프트에 응답하여 제공하며, Granite Speech 와 동일한 아키텍처 구성 요소를 포함합니다 (음성 인코더, 쿼리 트랜스포머 프로젝트어, 언어 모델, 선택적 LoRA 어댑터).

링크: 문서

Support for a new Granite-Speech-Plus model (#45695) by @zvik in #45695

Granite4Vision
Granite Vision 4.1 은 IBM Research 에서 개발한 기업용 문서 데이터 추출을 위한 비전 언어 모델입니다. 이 모델은 차트 추출 (Chart2CSV, Chart2Summary, Chart2Code), 표 추출 (JSON, HTML, OTSL), 그리고 의미론적 키-값 쌍 추출에 전문적입니다. 이 모델은 LLaVA-NeXT 를 기반으로 하며 SigLIP2 Vision Encoder, Window Q-Former Projectors, 8 개의 비전-LLM 주입 포인트를 가진 DeepStack Feature Injection 을 포함한 구조적 혁신을 포함합니다.

링크: 문서

Add Granite 4.1 Vision (granite4_vision) (#45597) by @artem-spector in #45597

EXAONE-4.5
EXAONE 4.5 는 LG AI Research 에서 개발한 첫 번째 오픈 웨이트 비전 언어 모델로, EXAONE 4.0 프레임워크에 전용 시각 인코더를 통합하여 멀티모달 능력을 확장합니다. 이 모델은 총 330 억 개의 파라미터를 포함하며, 그 중 12 억 개의 파라미터는 시각 인코더에서 제공되며, 일반적인 벤치마크에서는 경쟁력 있는 성능을 달성하고 문서 이해 및 한국어 컨텍스트 추론에서는 유사 크기의 모델을 능가합니다. EXAONE 4.0 을 기반으로 하며 핵심 개선 사항으로 153,600 개의 토큰으로 확장된 어휘, 최대 256K 토큰 컨텍스트 윈도우 지원, Multi-Token Prediction (MTP) 메커니즘을 포함합니다.

링크: 문서 | 논문 | 블로그 포스트

Add EXAONE 4.5 implementations (#45471) by @nuxlear in #45471

PP-FormulaNet
PP-FormulaNet-L 및 PP-FormulaNe

t_plus-L 은 문서 및 자연 장면에서 표 구조를 정확하게 인식하는 데 중점을 둔 경량 모델로, 이미지에서 수식과 표 구조를 감지하고 처리하는 텍스트-이미지 작업에 사용됩니다. 이 모델들은 SLANet 시리즈의 일부이며, PP-FormulaNet 모델을 지원할 수 있습니다.

변경 사항: 라이브러리에서 Apex 통합이 제거되었습니다 (T5 및 관련 모델의 RMSNorm 사용 포함). 따라서 Apex 를 혼합 정밀도 또는 합성 연산에 의존하는 사용자는 PyTorch 의 내장 등가체를 대신하여 마이그레이션해야 합니다. 🚨 대부분의 Apex 참조를 제거하세요.

토큰화: DeepSeek R1 distilled (Qwen2) 및 DeepSeek OCR 모델의 토크나이저 매핑 문제를 수정하고, skip_special_tokens=True 가 각 반복마다 특수 토큰 집합을 재구성하여 ~300 배 속도 향상을 가져온 PreTrainedTokenizer.convert_ids_to_tokens 의 중요한 성능 저하를 해결했습니다.

DeepSeek R1 distilled 토크나이저 Qwen2 매핑 수정
DeepSeek OCR 은 Hub 에서 잘못된 토크나이저 클래스를 지정합니다
PythonBackend 는 토큰화 convert_ids_to_tokens 를 느리게 합니다
버그 수정 및 개선: continuous_api 문서에서 맞춤법 오류 수정, 모듈러 변환 문서 링크 수정, Gemma4 실패 테스트 케이스 수정, CI 에서 더 많은 아티팩트 다운로드 허용, PR CI 워크플로우 파일에 병행성 추가, autodoc 및 dataclass 의 장식자 재배치, AutoModelFor*.from_config 에서 text_config 해체, float fallback 백엔드 목록에 Mps 지원 추가, Github Actions PR CI (caller) 확인, check_auto 를 CI 에서 호출, auto 매핑 스크립트 수정, [MINISTRAL3] yarn 의 apply_scale 지원 수정, [nemotron_h] dt_bias 및 out_proj.weight 에 _no_reinit 플래그 존중, backbone utils 테스트 저하 해결, CB 전체 스크립트 및 디코딩 버킷팅 개선, 모델 테스트 문서 번역 페르시아어 (farsi) 추가, OAI 프라이버시 필터 통합 테스트 추가, Qwen2VLImageProcessor 속도 향상, dummy_pt_objects.py 에서 dead beam-search dummies 제거, 10 유틸리티 파일에 ty 타입 검사 추가, Llama3 비디오 수정, 커스텀 모듈 복사 읽기 전용 권한 상속 해결, 모델 문서 Python 코드 추가, blt model 실패 테스트 케이스 수정

type checking for 3 pipeline files (#45667) by @moonbogi in [#45667]

Significant community contributions

The following contributors have made significant changes to the library over the last release:

@artem-spector Add Granite 4.1 Vision (granite4_vision) (#45597)

@SindhuRaghuram97 First model (#45788)

@nuxlear Add EXAONE 4.5 implementations (#45471)

@ArthurZucker Add DeepSeek V4 (#45643)

@remi-or [CB] Better overall script and decode bucketting (#45653)

@zhang-prog [Model] Add PP-FormulaNet Model Support (#45626)

@zvik Support for a new Granite-Speech-Plus model (#45695)

AI 자동 생성 콘텐츠

원문 바로가기

Release v5.8.0: 새로운 모델 추가 및 기능 업데이트

요약

핵심 포인트

댓글