릴리스 v5.7.0

요약

릴리스 v5.7.0은 새로운 모델 아키텍처인 Laguna(MoE)와 DEIMv2(객체 탐지)를 추가하고, 기존의 주의(Attention) 메커니즘 및 토크나이저 관련 버그들을 광범위하게 수정했습니다. 또한 연속 배치 생성 기능과 커널 지원을 개선하여 긴 시퀀스 처리 능력과 다양한 모델 아키텍처에 대한 호환성을 크게 향상시켰습니다.

핵심 포인트

**Laguna MoE 추가:** Poolside의 Mixture-of-Experts(MoE) 언어 모델 가족인 Laguna를 도입했으며, 시그모이드 MoE 라우터와 레이어별 헤드 공유 등 혁신적인 구조를 특징으로 합니다.
**DEIMv2 객체 탐지 지원:** DINOv3 기능을 확장한 실시간 객체 탐지 모델 DEIMv2를 추가하여, 초경량부터 대형 변형까지 다양한 크기를 제공하며 우수한 성능-비용 효율성을 입증했습니다.
**주의 및 토크나이저 버그 수정:** T5Gemma2의 캐시 타입 오류, Qwen3.5의 선형 주의 캐싱 문제 등 여러 주요 모델에서 발생하던 주의(Attention) 관련 버그와 AutoTokenizer 문제를 해결하여 안정성을 높였습니다.
**생성 및 커널 최적화:** 긴 시퀀스 처리를 위한 메모리 관리 개선과 FP8 체크포인트 지원, 사용자 정의 전문가 커널 로딩 기능을 추가하여 성능과 호환성을 강화했습니다.

릴리스 v5.7.0

새로운 모델 추가

Laguna
Laguna 는 Poolside 의 mixture-of-experts 언어 모델 가족으로, 표준 SwiGLU MoE transformers 에 두 가지 핵심 혁신을 추가합니다. 레이어별 헤드 개수를 특징으로 하여 다른 디코더 레이어가 동일한 KV 캐시 모양을 공유하면서도 다른 쿼리-헤드 개수를 가질 수 있도록 하며, 게이트 로짓의 요소별 시그모이드와 학습된 각 전문가 바이어를 사용하여 라우터 점수에 보조 손실 없는 로드 밸런싱을 구현하는 시그모이드 MoE 라우터를 사용합니다. 링크: 문서 Laguna XS.2 구현 ( #45673 ) 은 @joerowell 이 #45673 에서 제출했습니다.

DEIMv2
DEIMv2 (DETR with Improved Matching v2) 는 DINOv3 기능을 확장하여 실시간 객체 탐지 모델로, 다양한 배포 시나리오를 위해 X 에서 Atto 까지 여덟 가지 모델 크기를 제공합니다. 더 큰 변형에는 DINOv3 의 단일 스케일 출력을 다중 스케일 기능으로 변환하기 위한 Spatial Tuning Adapter (STA) 를 사용하며, 초경량 모델은 가지치기한 HGNetv2 백본을 사용합니다. 통합 설계는 우수한 성능-비용 트레이드오프를 달성하며, DEIMv2-X 는 50.3M 파라미터로만 57.8 AP 에 도달하고, DEIMv2-S 는 COCO 에서 50 AP 를 초과한 최초의 10M 미만 모델입니다. 링크: 문서 | 논문 model: Transformers 에 DEIMv2 추가 ( #44339 ) 는 @harshaljanjani 가 #44339 에서 제출했습니다.

Attention
여러 모델에서 주의 관련 버그가 수정되었습니다.其中包括 T5Gemma2 의 긴 입력에 대한 크로스-앰션 캐시 타입 오류, Qwen3.5 의 gated-delta-net 선형 주의의 잘못된 캐싱된 순방향 동작, 그리고 Mamba 레이어가 없는 GraniteMoeHybrid 에서 발생하는 충돌입니다. 또한 최신 모델 구현과 일치하도록 주의 함수 디스패치가 업데이트되었습니다.

T5Gemma2 긴 입력에 대한 크로스-앰션 캐시 레이어 타입 수정 ( #45540 ) 은 @Beichen-Ma 가 [ #45540 ] 에서 제출했습니다.
[Qwen3.5] GDN 선형 주의 다중 토큰 캐싱된 순방향 수정 ( #45513 ) 은 @kashif 가 [ #45513 ] 에서 제출했습니다.
GraniteMoeHybrid _update_mamba_mask 충돌 (주의 전용 모델에서) 수정 ( #45514 ) 은 @tianhaocui 가 [ #45514 ] 에서 제출했습니다.
최신 모델 주의 함수 디스패치 정렬 ( #45598 ) 은 @Cyrilvallez 가 [ #45598 ] 에서 제출했습니다.

Tokenizers
AutoTokenizer 에는 잘못된 토크나이저 클래스가 초기화되는 버그가 있었습니다. 이는 DeepSeek R1 과 같은 모델에서 퇴보를 초래했습니다. change 가 되돌아감 ( #45680 ) 은 @itazap 이 [ #45680 ] 에서 제출했습니다.

Generation
연속 배치 생성은 여러 수정과 개선을 받았습니다. 긴 시퀀스 (16K+) 에 대한 KV 중복 제거 및 메모리 추정치를 수정하고, 기능이 올바르게 작동함에도 불구하고 잘못 발화되었던 num_return_sequences 와 기타 지원되지 않는 기능에 대한 오해의 소지가 있는 경고문을 제거했습니다. 또한 요청별 샘플링 파라미터 문서가 추가되었습니다.

generate: 연속 배치 경로에서 오래된 num_return_sequences 경고문 삭제 ( #45582 ) 는 @joaquinhuigomez 가 [ #45582 ] 에서 제출했습니다.
불필요한 generate 경고문 제거 ( #45619 ) 는 @Cyrilvallez 가 [ #45619 ] 에서 제출했습니다.
[CB] 긴 생성을 위한 변경사항 ( #45530 ) 은 @remi-or 가 [ #45530 ] 에서 제출했습니다.
[docs] 요청별 샘플링 파라미터 ( #45553 ) 는 @stevhliu 가 [ #45553 ] 에서 제출했습니다.

Kernels
FP8 체크포인트 (예: Qwen3.5-35B-A3B-FP8) 의 구성 읽기 및 오류 처리를 수정하여 커널 지원이 개선되었습니다. HF Hub 에서 등록한 사용자 정의 전문가 커널을 올바르게 로드할 수 있도록 하고, Gemma3n 과 Gemma4 가 로터리 커널을 사용할 수 없게 만들었던 호환성 문제를 해결했습니다.

커널 구성 읽기 및 오류 처리 수정 ( #45610 ) 은 @hmellor 가 [ #45610 ] 에서 제출했습니다.
커널 허브에서 등록한 전문가 허용 ( #45577 ) 은 @winglian 이 [ #45577 ] 에서 제출했습니다.
Gemma3n 과 Gemma4 는 로터리 커널을 사용할 수 없음 ( #45564 ) 은 @Cyrilvallez 가 [ #45564 ] 에서 제출했습니다.

버그 수정 및 개선사항
더 많은 오타를 수정 ( #45689 ) 은 @vasqu 가 [ #45689 ] 에서 제출했습니다.

[docs] cb 메모리 관리 ( #45587 ) 는 @stevhliu 가 [ #45587 ] 에서 제출했습니다.
[docs] cpu 오프로딩 ( #45660 ) 은 @stevhliu 가 [ #45660 ] 에서 제출했습니다.
docs(README_zh-hans): Transformers 를 사용하지 않는 조건 명확화 ( #45688 ) 는 @GuaiZai233 이 [ #45688 ] 에서 제출했습니다.
fast_vlm 테스트를 위한 패딩 사이드 이슈 수정 ( #45592 ) 은 @kaixuanliu 가 [ #45592 ] 에서 제출했습니다.
x_clip : 8 개의 실패한 테스트 케이스 수정

AI 자동 생성 콘텐츠

원문 바로가기

릴리스 v5.7.0

요약

핵심 포인트

댓글