본문으로 건너뛰기

© 2026 Molayo

llama.cpp헤드라인2026. 05. 09. 18:10

MiMo-V2.5( #22812 ) 지원하기 위해 Flash Attention MMA / Tiles 추가 mimo-v2.5: d_kq=192,

요약

이 기술 기사는 MiMo-V2.5 모델을 지원하기 위해 Flash Attention MMA/Tiles 기능을 추가하고 관련 최적화를 수행한 내용을 담고 있습니다. 구체적으로 d_kq=192, d_v=128 설정을 위한 flash attention mma/tiles 구현과 (256, 256) fattn 템플릿 적용이 주요 작업입니다. 또한 GQA 처리 수정, 다양한 아키텍처(macOS, Linux, Android, Windows 등) 및 백엔드 환경에 대한 광범위한 테스트와 업데이트가 이루어졌습니다.

핵심 포인트

  • MiMo-V2.5 모델 지원을 위해 Flash Attention MMA/Tiles 기능을 추가하여 성능 최적화를 달성했습니다.
  • d_kq=192, d_v=128 등 특정 차원 설정을 위한 flash attention mma/tiles 구현이 핵심입니다.
  • GQA 처리 수정 및 다양한 아키텍처(CPU, GPU, OS별)에 대한 광범위한 테스트 커버리지를 확보했습니다.
  • macOS, Linux, Windows, Android 등 주요 플랫폼 전반에 걸쳐 최신 라이브러리 및 환경을 지원하도록 업데이트되었습니다.

MiMo-V2.5( #22812 ) 지원하기 위해 Flash Attention MMA / Tiles 추가

mimo-v2.5: d_kq=192, d_v=128 를 위한 flash attention mma/tiles 추가

mimo-v2.5: (256, 256) fattn 템플릿 따르기

mimo-v2.5: 주석 정리

mimo-v2.5: 추가 주석 정리

mimo-v2.5: PR 피드백 해결

GQA 처리 수정

기타 떠다니는 320/576 carveout 확인 및 192 를 위한 거울 복사

새로운 경로를 커버하도록 백엔드 ops 테스트 추가

macOS/iOS: macOS Apple Silicon (arm64), macOS Apple Silicon (arm64, KleidiAI 활성화), macOS Intel (x64)

iOS XCFramework

Linux: Ubuntu x64 (CPU), Ubuntu arm64 (CPU), Ubuntu s390x (CPU), Ubuntu x64 (Vulkan), Ubuntu arm64 (Vulkan), Ubuntu x64 (ROCm 7.2), Ubuntu x64 (OpenVINO), Ubuntu x64 (SYCL FP32), Ubuntu x64 (SYCL FP16)

Android: Android arm64 (CPU)

Windows: Windows x64 (CPU), Windows arm64 (CPU), Windows x64 (CUDA 12) - CUDA 12.4 DLLs, Windows x64 (CUDA 13) - CUDA 13.1 DLLs, Windows x64 (Vulkan), Windows x64 (SYCL), Windows x64 (HIP)

openEuler: openEuler x86 (310p), openEuler x86 (910b, ACL Graph), openEuler aarch64 (310p), openEuler aarch64 (910b, ACL Graph)

AI 자동 생성 콘텐츠

본 콘텐츠는 llama.cpp Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0