모델: Mimo v2.5 모델 지원 추가 (#22493) mimo-v2.5: fix modify_tensors row split mimi-v2.
요약
이 기술 기사는 Mimo v2.5 모델을 지원하기 위한 업데이트 내용을 담고 있습니다. 주요 수정 사항으로는 `modify_tensors`의 행 분할 문제 해결, 어텐션 가중치 스케일링(attn_value scale) 누락 처리, 그리고 TP (Tensor Parallelism) 반복 순서 조정 등이 포함됩니다. 또한, Mimo v2.5 모델에 대한 GGUF 변환 및 다양한 운영체제/하드웨어 아키텍처(macOS, Linux, Windows, Android 등)에서의 지원을 확장하고 최적화하는 작업이 이루어졌습니다.
핵심 포인트
- Mimo v2.5 모델의 공식 지원 추가와 관련 버그 수정 및 기능 개선이 이루어짐.
- 기술적인 수정 사항으로는 텐서 처리(modify_tensors), 어텐션 가치 스케일링, 그리고 분산 컴퓨팅 환경에서의 TP 반복 순서 조정 등이 포함됨.
- GGUF 포맷 변환기(`convert_hf_to_gguf.py`)가 업데이트되어 Mimo v2.5 모델의 가중치를 통합함.
- macOS, Linux, Windows 등 광범위한 플랫폼과 다양한 백엔드(CUDA, ROCm, OpenVINO, SYCL 등)에 대한 지원이 확장 및 최적화됨.
모델: Mimo v2.5 모델 지원 추가 (#22493)
mimo-v2.5: fix modify_tensors row split
mimi-v2.5: forgot add_attn_value_scale plumbing
mimi-v2.5: fix tp dequant to detect tp rows
mimo-v2.5: fix TP iteration to be descending
mimo-v2.5: fix comment
mimo-v2.5: retain fused qkv
mimo-v2.5: missed the attn_value scale during merge
mimo-v2.5: fused QKV needs contiguous for scaling attention value
mimo-v2.5: move speech_embeddings. to TextModel
filter_tensors
Update src/llama-hparams.h
Co-authored-by: Sigbjørn Skjæret sigbjorn.skjaeret@scala.com
Update src/models/mimo2.cpp
Co-authored-by: Sigbjørn Skjæret sigbjorn.skjaeret@scala.com
Update src/models/mimo2.cpp
Co-authored-by: Sigbjørn Skjæret sigbjorn.skjaeret@scala.com
Update convert_hf_to_gguf.py
Co-authored-by: Sigbjørn Skjæret sigbjorn.skjaeret@scala.com
Update convert_hf_to_gguf.py
Co-authored-by: Sigbjørn Skjæret sigbjorn.skjaeret@scala.com
Update src/models/mimo2.cpp
Co-authored-by: Sigbjørn Skjæret sigbjorn.skjaeret@scala.com
mimo-v2.5: include MTP weights in gguf
Co-authored-by: Sigbjørn Skjæret sigbjorn.skjaeret@scala.com
macOS/iOS: macOS Apple Silicon (arm64)
macOS Apple Silicon (arm64, KleidiAI enabled)
macOS Intel (x64)
iOS XCFramework
Linux: Ubuntu x64 (CPU)
Ubuntu arm64 (CPU)
Ubuntu s390x (CPU)
Ubuntu x64 (Vulkan)
Ubuntu arm64 (Vulkan)
Ubuntu x64 (ROCm 7.2)
Ubuntu x64 (OpenVINO)
Ubuntu x64 (SYCL FP32)
Ubuntu x64 (SYCL FP16)
Android: Android arm64 (CPU)
Windows: Windows x64 (CPU)
Windows arm64 (CPU)
Windows x64 (CUDA 12) - CUDA 12.4 DLLs
Windows x64 (CUDA 13) - CUDA 13.1 DLLs
Windows x64 (Vulkan)
Windows x64 (SYCL)
Windows x64 (HIP)
openEuler: openEuler x86 (310p)
openEuler x86 (910b, ACL Graph)
openEuler aarch64 (310p)
openEuler aarch64 (910b, ACL Graph)
AI 자동 생성 콘텐츠
본 콘텐츠는 llama.cpp Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기