v5.9.0 릴리스 새로운 모델 추가 Cohere2Moe Command A+는 Cohere의 Mixture-of-Experts (MoE) 언어

v5.9.0 릴리스

새로운 모델 추가

Cohere2Moe Command A+는 Cohere의 Mixture-of-Experts (MoE) 언어 모델로, 슬라이딩 윈도우 (sliding window)와 전체 어텐션 (full attention) 레이어를 결합한 하이브리드 어텐션 패턴을 특징으로 합니다. 이 모델은 공유 전문가 (shared experts)와 라우팅된 전문가 (routed experts)를 모두 포함하며, 방대한 텍스트 시퀀스를 처리하기 위해 매우 큰 컨텍스트 윈도우 (context window)를 지원합니다. 링크: 문서 (Documentation)

새로운 cohere2_moe 모델 추가 ( #46115 ) @Cyrilvallez 작성, #46115 에 반영
Parakeet tdt ( #44171 )
Parakeet tdt ( #44171 ) @lmaksym 작성

HRM-Text
HRM-Text는 Hierarchical Reasoning Model (HRM)의 개선된 자기회귀 (autoregressive) 언어 모델링 변형으로, 중첩된 재귀 (nested recurrence) 내부에서 재사용되는 두 개의 트랜스포머 (transformer) 스택—느리고 추상적인 계획을 위한 스택 (H)과 빠르고 세부적인 계산을 위한 스택 (L)—을 사용하는 계층적 순환 순전파 (hierarchical recurrent forward pass)를 사용합니다. 이 모델은 지시어 토큰 (instruction tokens)은 양방향으로 어텐션하고 응답 토큰 (response tokens)은 인과적 (causally)으로 어텐션하는 PrefixLM 어텐션, 헤드별 시그모이드 출력 게이트 (per-head sigmoid output gates), 그리고 파라미터가 없는 RMSNorm을 특징으로 합니다. 이 모델은 지시어 튜닝 (instruction tuning)이나 채팅 템플릿 (chat templates) 없이 베이스 언어 모델 (base language model)로 설계되었습니다. 링크: 문서 (Documentation) | 논문 (Paper)

hrm text 추가 ( #46025 ) @abcd1927 작성, #46025 에 반영

변경 사항 (Breaking changes)

SAM3, EdgeTAM, SAM3-Lite-Text 모델의 text_embeds 입력은 이제 라이브러리의 다른 모델들과 일치하도록 풀러 출력 (pooler outputs) 대신 전체 텍스트 임베딩 (full text embeddings)을 기대합니다. 사용자는 이에 따라 입력을 업데이트해야 합니다.

🚨 비전 모델 (vision models)에서 lru 데코레이터 (lru decorators)로 인해 발생하는 메모리 누수 수정 ( #45922 ) @yonigozlan 작성

오디오 (Audio)

AudioFlamingoNext 모델 체크포인트가 추가되고, 독립형 순수 함수 (standalone pure functions)를 통해 오디오/비전 인코더 (audio/vision encoders)의 컴파일 가능성 (compilability)이 개선됨에 따라 오디오 지원이 확장되었습니다. 추가적인 개선 사항으로는 비디오 파일에서 오디오를 로드할 때의 더 나은 에러 메시지 출력과 오디오/비디오 프로세서 (audio/video processors)를 위한 새로운 문서가 포함됩니다.

비디오에서 오디오를 로드할 때 사용자 친화적인 에러 메시지 제공 ( #45221 ) @eustlb 작성 [ #45221 ]
[docs] 오디오/비디오 프로세서 (audio/video processors) 추가 ( #45795 ) @stevhliu 작성 [ #45795 ]
Audio Flamingo Next 체크포인트 지원 ( #44830 ) @lashahub 작성 [ #44830 ]
동적 비전/오디오 텐서 (dynamic vision/audio tensors)를 독립적인 순수 함수 (standalone pure functions)로 추출 ( #45396 ) @IlyasMoutawwakil 작성 [ #45396 ]

생성 (Generation)
Gemma4를 위한 inputs_embeds 및 per_layer_inputs 처리 관련 생성 문제 해결, 설정 필드 누락으로 인해 RAG의 generate()에서 발생하던 AttributeError 해결, 그리고 샘플링 중 특수 이미지 토큰을 차단하여 불안정한 VLM 생성 테스트 해결.
Gemma4의 inputs_embeds 및 per_layer_inputs로부터의 생성 수정 ( #46049 ) @Cyrilvallez 작성 [ #46049 ]
설정 필드 누락으로 인한 RAG generate()의 AttributeError 수정 ( #46035 ) @Sriniketh24 작성 [ #46035 ]
생성 테스트 샘플링 중 image_start/end_token_id 차단 ( #45914 ) @Rocketknight1 작성 [ #45914 ]

버그 수정 및 개선 (Bugfixes and improvements)
masking_utils.py에서 마스크 시각화 도구 제거 ( #46066 ) @Cyrilvallez 작성 [ #46066 ]
fix: GET /v1/models의 owned_by 필드가 문자열 대신 리스트를 반환하는 문제 수정 ( #46006 ) @nileshpatil6 작성 [ #46006 ]
[CB] OpenTelemetry 제거 ( #45984 ) @remi-or 작성 [ #45984 ]
docs(readme): 본문 링크에 정식 huggingface.co 도메인 사용 ( #46042 ) @kiwigitops 작성 [ #46042 ]
현재 transformers에서 충돌이 발생하는 나머지 RAG 문서 예제 수정 ( #46044 ) @Sriniketh24 작성 [ #46044 ]
복사본이 아닌 실제 텐서 초기화 ( #46030 ) @Rocketknight1 작성 [ #46030 ]
docs: 레거시 ACL 앤솔로지 URL 동기화 및 i18n README 전반의 메트릭 업데이트 ( #46027 ) @irfaan101 작성 [ #46027 ]
[MultimodalLM] get/set_input_embeddings 로직에 language_model 추가 ( #46029 ) @eustlb 작성 [ #46029 ]
[ HRM Text ] 통합 테스트 (integration tests) 추가 ( #46033 ) @vasqu 작성 [ #46033 ]
hy_v3: XPU 기대값 (expectations) 추가 ( #45858 ) @kaixuanliu 작성 [ #45858 ]
exaone4_5: XPU 기대값 (expectations) 추가 ( #45890 ) @kaixuanliu 작성 [ #45890 ]
hyperclovax: CI 테스트를 위한 XPU 기대값 (expectations) 추가 ( #45926 ) @

@kaixuanliu 작성 [ #45926 ] chore(ci): circleci-failure-summary-comment.yml에서 불필요한 환경 변수 (env vars) 제거 ( #45972 ) by @XciD 작성 [ #45972 ] [CB] [Major] 텐서 병렬성 (tensor parallelism) 추가 ( #45821 ) by @remi-or 작성 [ #45821 ] docs: 모델 아키텍처 수 업데이트 및 ACL anthology URL 동기화 ( #46001 ) by @irfaan101 작성 [ #46001 ] bugfix(ci): pr_slow_ci_suggestion에서 E2BIG 오류 방지 ( #45983 ) by @tarekziade 작성 [ #45983 ] RFDetr - 릴리스를 위해 올바른 Roboflow 조직 (org) 사용 ( #45946 ) by @sbucaille 작성 [ #45946 ] docs: weightconverter.md의 포맷팅 문제 수정 ( #45988 ) by @ArjunSrivastava1 작성 [ #45988 ] colqwen2 테스트 수정 ( #45981 ) by @IlyasMoutawwakil 작성 [ #45981 ] FSDP2 CPU 오프로드 (offload) 환경의 Qwen3VL 제품군에서 M-RoPE 장치 불일치(device mismatch) 수정 ( #45861 ) by @jamesbraza 작성 [ #45861 ] [docs] 채팅 템플릿 프리필 (chat template prefill) ( #45947 ) by @stevhliu 작성 [ #45947 ] [docs] 디코드 패스트 패스 (decode fast path) ( #45899 ) by @stevhliu 작성 [ #45899 ] fix: _attn_implementation 복구 및 generate_batch()의 요청 오프셋 (request offset) 수정 ( #45943 ) by @sergiopaniego 작성 [ #45943 ] 모든 Gemma4 변형 모델에 대해 per_layer_inputs 노출 ( #45927 ) by @Cyrilvallez 작성 [ #45927 ] chore: benchmark_v2.yml 업데이트 ( #45966 ) by @hf-security-analysis[bot] 작성 [ #45966 ] fix(ci): actions/checkout에서 persist-credentials: false 설정 및 남은 템플릿 인젝션 (template injection) 탐지 결과 종료 ( #45964 ) by @XciD 작성 [ #45964 ] chore(ci): 기본 워크플로 권한을 contents: read로 설정 ( #45961 ) by @XciD 작성 [ #45961 ] fix(ci): pull_request_target 워크플로에서 템플릿 인젝션 제거 ( #45956 ) by @XciD 작성 [ #45955 ] chore(ci): 모든 GitHub Actions 및 재사용 가능한 워크플로를 SHA로 고정 ( #45955 ) by @XciD 작성 [ #45955 ] [docs] ALMModelTest ( #45900 ) by @stevhliu 작성 [ #45900 ] 커스텀 필드 프리필링(reasoning_content, thinking 등)을 지원하도록 apply_chat_template 개선 ( #45896 ) by @Mamiglia 작성 [ #45896 ] BUGFIX: conv_pos_batch_norm이 구성되지 않은 hubert 모델 지원 ( #45921 ) by @igordertigor 작성 [ #45921 ] 45777 되돌리기 (Revert) ( #45942 ) by @Rocketknight1 작성 [ #45942 ] pass the

otel secrets ( #45933 ) @tarekziade 작성 [ #45933 ] torch_tpu 백엔드 초기 지원 추가 ( #45918 ) @tengomucho 작성 [ #45918 ] [CB] CUDA graph pool을 사용하여 활성화 풋프린트 (activation footprint) 숨기기 ( #45911 ) @remi-or 작성 [ #45911 ] 반복 페널티 (repetition penalty)를 위해 input_ids 요구 ( #45389 ) @ruben-aghayan 작성 [ #45389 ] 정의되지 않은 'input' 변수 수정 ( #45895 ) @fullyz 작성 [ #45895 ] RF-DETR 후처리 수정 ( #46041 ) @yonigozlan 작성 (v5.9.0에 직접 커밋) [loading] ConversionOps 내부에서 텐서 (tensors)를 더 빠르게 해제 ( #46110 ) @Cyrilvallez 작성 (v5.9.0에 직접 커밋) 새로운 cohere2_moe 모델 추가 ( #46115 ) @Cyrilvallez 작성 (v5.9.0에 직접 커밋) 릴리스를 위한 cohere2 tp_plan 수정 @Cyrilvallez 작성 (v5.9.0에 직접 커밋) v5.9.0 릴리스 @Cyrilvallez 작성 (v5.9.0에 직접 커밋)

주요 커뮤니티 기여
다음 기여자들은 지난 릴리스 동안 라이브러리에 중요한 변경 사항을 반영했습니다:
@lmaksym Parakeet tdt ( #44171 )
@eustlb 비디오에서 오디오를 로드할 때 사용자 친화적인 에러 메시지 제공 ( #45221 )
[MultimodalLM] get/set_input_embeddings 로직에 language_model 추가 ( #46029 )
@remi-or [CB] OpenTelemetry 제거 ( #45984 )
[CB] [Major] 텐서 병렬성 (tensor parallelism) 추가 ( #45821 )
[CB] CUDA graph pool을 사용하여 활성화 풋프린트 (activation footprint) 숨기기 ( #45911 )
@abcd1927 hrm 텍스트 추가 ( #46025 )

v5.9.0 릴리스 새로운 모델 추가 Cohere2Moe Command A+는 Cohere의 Mixture-of-Experts (MoE) 언어

요약

핵심 포인트

댓글