Release v5.10.1

v5.10.0 버전은 손상된 브랜치(corrupted branch)에 게시되어 철회(yanked)되었습니다. 여러분께 사과드립니다. 출시를 서두르다 보니 이런 일이 발생했습니다!!!

새로운 모델 추가

Gemma4 unified+ Gemma4 MTP

Gemma 4 12B Unified는 사전 학습(pretrained) 및 지시어 튜닝(instruction-tuned) 변체(variants)를 포함하는 인코더 프리 (encoder-free) 멀티모달 모델입니다. 전용 인코더 타워(encoder towers)를 사용하는 표준 Gemma 4와 달리, Gemma 4 12B Unified는 경량 선형 파이프라인(linear pipelines)을 통해 원시 입력(raw inputs)을 언어 모델의 임베딩 공간(embedding space)으로 직접 투영합니다. 이를 통해 강력한 멀티모달 성능을 유지하면서도 더 단순한 아키텍처를 구현합니다.

표준 Gemma 4와의 주요 차이점:

Vision Tower 없음 (No Vision Tower): 비전 인코더 (vision encoder)를 대체하여, 분해된 2D 위치 임베딩 (factorized 2D positional embeddings)을 포함한 Dense + LayerNorm 파이프라인을 통해 원시 픽셀 패치 (raw pixel patches)를 언어 모델 (LM) 공간으로 직접 투영합니다.
Audio Tower 없음 (No Audio Tower): 멜 스펙트로그램 (mel spectrogram) + Conformer 인코더를 대체하여, 원시 16 kHz 파형 샘플 (raw 16 kHz waveform samples)을 고정 길이 프레임으로 청킹 (chunked)한 후 단순한 RMSNorm → Linear 파이프라인을 통해 투영합니다.
공유 멀티모달 파이프라인 (Shared Multimodal Pipeline): 비전과 오디오 모두 텍스트 은닉 공간 (text hidden space)으로의 최종 투영을 위해 동일한 Gemma4UnifiedMultimodalEmbedder (RMSNorm → Linear)를 사용합니다.

원본 Gemma 4 12B Unified 체크포인트는 Gemma 4 릴리스에서 확인할 수 있습니다.

who needs encoders? (#46385) by @douglas-reid @sgerrard @vasqu @molbap

Sapiens2

Sapiens2는 약 10억 개의 선별된 인간 이미지를 기반으로 사전 학습된 고해상도 비전 트랜스포머 (vision transformers) 제품군으로, 포즈 추정 (pose estimation), 신체 부위 분할 (body-part segmentation), 표면 법선 추정 (surface normal estimation), 포인트맵 추정 (pointmap estimation)을 포함한 인간 중심의 컴퓨터 비전 작업을 위해 설계되었습니다. 모델 규모는 0.4B에서 5B 파라미터까지 확장되며, 네이티브 1K 해상도에서 학습되었고, 확장된 공간 추론을 위한 계층적 4K 변형 모델도 제공합니다. Sapiens2는 이전 모델 대비 포즈 추정에서 +4 mAP, 신체 부위 분할에서 +24.3 mIoU, 법선 추정에서 45.6%의 오차 감소를 달성하며 상당한 개선을 이루었습니다.

링크: Documentation | Paper

Sapiens2 모델 추가 (#45919) by @guarin in #45919

DeepSeek-OCR-2

DeepSeek-OCR-2는 SAM ViT-B 비전 인코더 (vision encoder)와 Qwen2 하이브리드 어텐션 인코더 (hybrid attention encoder)를 결합하고, 이를 MLP 프로젝터 (MLP projector)를 통해 DeepSeek-V2 Mixture-of-Experts (MoE) 언어 모델 (language model)에 연결하는 독특한 아키텍처를 기반으로 구축된 OCR 특화 시각-언어 모델 (vision-language model)입니다. 이 모델은 이미지 토큰 (image tokens)에는 양방향 어텐션 (bidirectional attention)을, 쿼리 토큰 (query tokens)에는 인과적 어텐션 (causal attention)을 적용하는 하이브리드 어텐션 메커니즘 (hybrid attention mechanism)을 특징으로 하여, 효율적이고 정확한 문서 이해를 가능하게 합니다. 또한 일반적인 OCR 작업과 더불어, 문서를 마크다운 (markdown) 형식으로 변환하기 위한 좌표 인식 출력 (coordinate-aware output)을 포함한 그라운딩 (grounding) 기능을 지원합니다.

링크: Documentation

@thisisiron에 의해 #45075에서 Deepseek-OCR-2 모델 추가 (#45075)

Mellum

Mellum은 JetBrains에서 개발한 코드 중심의 Mixture-of-Experts (MoE) 언어 모델입니다. 이는 레이어 유형별 RoPE (per-layer-type RoPE) 및 인터리브 슬라이딩 윈도우 어텐션 (interleaved sliding window attention)을 갖춘 Qwen3-MoE 아키텍처에서 파생되었습니다. 이 모델은 총 12B 매개변수 (parameters)를 가지며 토큰당 2.5B의 활성 매개변수 (active parameters)를 사용합니다. 28개 레이어에 걸쳐 토큰당 8개가 활성화되는 64개의 라우팅된 전문가 (routed experts)를 사용합니다.

링크: Documentation

@shadeMe에 의해 #46112에서 JetBrains의 Mellum v2 코드 생성 모델 지원 추가 (#46112)

Breaking changes (중대한 변경 사항)

Gemma4 비전 풀러 (vision pooler)는 이제 대규모 체크포인트 (checkpoints) 사용 시 float16 오버플로 (float16 overflow, inf saturation)를 방지하기 위해 스케일링 전 입력을 float32로 캐스팅 (casts)합니다. 이로 인해 float16에서 Gemma-4 비전 모델을 실행하는 사용자에게는 출력값에서 미세한 수치적 차이가 발생할 수 있습니다.

🚨 Gemma4 비전 풀러 (vision pooler)의 float16 오버플로 (overflow) 수정 (#46277) @Bluear7878 작성

오디오 언어 모델 (Audio Language Models, ALMs)에 언어 모델링 헤드 (language modeling head)가 없는 전용 베이스 모델 클래스 (base model class)가 추가되었습니다. 이는 비전 언어 모델 (Vision Language Models, VLMs)의 설계 방식과 일치하도록 조정된 것입니다. 이전의 모델 클래스 구조에 의존하던 사용자들은 적절한 경우 새로운 베이스 모델 클래스를 사용하도록 코드를 업데이트해야 합니다.

🚨 [ALM] 헤드가 없는 베이스 모델 추가 (#45534) @eustlb 작성

병렬화 (Parallelization)

이번 릴리스에는 여러 모델 (Gemma4, AltCLIP, ChineseClip, Blip-2, Whisper, Ovis2, Moshi)에 걸친 모델 병렬화 (model parallelism) 및 병렬 실행 전략에 대한 수많은 버그 수정이 포함되었습니다. 여기에는 텐서 병렬화 (tensor parallelism, TP), 전문가 병렬화 (expert parallelism, EP), 모델 병렬 설정 하에서의 빔 서치 (beam search), 그리고 TP/EP 구성에서의 손실값 과다 계산 (loss over-counting)에 대한 수정이 포함됩니다. 또한, 더 명확한 제어 흐름과 개선된 TP 레이스 컨디션 (race condition) 처리를 위해 컨티뉴어스 배칭 매니저 (continuous batching manager)를 재설계하였으며, from_pretrained를 통한 FSDP 초기화 기능이 도입되었습니다.

@IlyasMoutawwakil가 [#46378]에서 dsv4 dequant + tp/ep 관련 수정
@remi-or가 [#46070]에서 관리자(manager)를 재작업하여 더 명확한 제어 흐름을 갖추고 TP 처리를 추가
@kaixuanliu가 [#46280]에서 모델 병렬(model parallel) 비빔 검색(beam search)에 대한 일련의 버그 수정
@kaixuanliu가 [#45487]에서 altclip 모델 및 ChineseClip 모델에 대한 모델 병렬 문제 수정
@kaixuanliu가 [#46230]에서 모델 병렬 관련 수정
@vasqu가 [#46246]에서 FSDP+Dtensor 리팩토링 관련 변경 사항 되돌리기(Revert)
@kaixuanliu가 [#45817]에서 Gemma4에 대한 모델 병렬 버그 수정
@3outeille가 [#46102]에서 from_pretrained를 통한 FSDP 초기화 기능 구현

캐시 (Cache)

디코더 설정이 크로스 어텐션 캐시에 잘못 적용되는 인코더-디코더 캐시 초기화의 회귀(regression)를 수정하고, MPS 장치에서 캐시 워밍업 시 버퍼 크기 제한으로 인해 발생하던 RuntimeError를 해결했습니다. CI에 사용되는 읽기 전용 캐시 환경을 지원하기 위해 추가적인 테스트 인프라 개선이 이루어졌습니다.

fix: mps에서의 캐시 워밍업 (cache warmup) RuntimeError 수정 (#46239) by @McPatate in [#46239]
읽기 전용 캐시 (read-only cache)에서 더 많은 테스트가 작동하도록 개선 (#46299) by @ydshieh in [#46299]
기본 xet 캐시에 쓰기가 발생하지 않도록 테스트 업데이트 (#46250) by @ydshieh in [#46250]
인코더-디코더 생성 캐시 (encoder-decoder generation cache) 초기화에서의 회귀 (regression) 수정 (#46111) by @kaixuanliu in [#46111]

양자화 (Quantization)

그룹화된 선형 리팩터링 (grouped linear refactor)을 통해 DeepGEMM BF16, 혼합 FP8/FP4, 그리고 MegaMoE 양자화 지원을 추가하였으며, 두 가지 버그를 수정했습니다: DSv4 초기화에 영향을 미치는 FP8 MoE 역방향 부분 문자열 (reverse substring) 문제, 그리고 일대다 가중치 변환기 (one-to-many weight converters)에서 청크된 텐서 (chunked tensors)를 조용히 누락시키던 BitsAndBytes 4-bit/8-bit 양자화 버그를 해결했습니다.

DeepGEMM BF16 + mixed FP8/FP4 + MegaMoE + refactor (#45634) by @IlyasMoutawwakil in [#45634]
Fix fp8 moe reverse substring (#46265) by @ArthurZucker in [#46265]
Fix bnb 4bit/8bit quantization drop chunked tensors bug (#46210) by @kaixuanliu in [#46210]

Release v5.10.1

요약

핵심 포인트

Release v5.10.1

새로운 모델 추가

Gemma4 unified+ Gemma4 MTP

Sapiens2

DeepSeek-OCR-2

DeepSeek-OCR-2

Mellum

Breaking changes (중대한 변경 사항)

병렬화 (Parallelization)

캐시 (Cache)

양자화 (Quantization)

버그 수정 및 개선 사항

댓글