llama.cpp헤드라인2026. 05. 14. 04:42

ggml-webgpu: 멀티모달 (multimodal)을 위한 정밀도 문제 해결 ( #22808 ) fix(mixed-types): 정밀도를 위

요약

이 업데이트는 ggml-webgpu 라이브러리에서 멀티모달(multimodal) 기능을 지원하기 위한 정밀도 문제를 해결하는 데 중점을 둡니다. 주요 수정 사항으로는 f32 사용을 위해 공유 메모리 계산 로직 업데이트, GELU 및 관련 함수 수정, flash-attn 경로 수정 등이 포함됩니다. 또한 다양한 운영체제와 아키텍처(macOS, iOS, Linux, Android, Windows 등)에 대한 광범위한 호환성 패치가 이루어졌습니다.

핵심 포인트

멀티모달 기능을 위한 정밀도 문제 해결 및 f32 사용 로직 업데이트
GELU 함수 수정 및 NaN 방지를 위한 clamp 적용
flash-attn 경로 및 타입 충돌 관련 여러 버그 수정
macOS, Linux, Windows 등 다양한 플랫폼과 아키텍처에 대한 광범위한 지원 추가/업데이트

ggml-webgpu: 멀티모달 (multimodal)을 위한 정밀도 문제 해결 ( #22808 )
fix(mixed-types): 정밀도를 위해 f32를 사용하고 f32를 위한 공유 메모리 (shared memory) 계산 로직 업데이트
fix(unary): gelu, gelu quick, gelu erf 함수 수정
fix(flash-attn-tile): 하드코딩된 v 타입 수정
fix(flash_attn): 타일 (tile) 경로 수정
fix: editorconfig을 전달하고 타입 충돌 해결
fix: 불필요한 파이프라인 (pipeline) 키 제거
fix: 인라인 min/max 그룹 크기 함수를 제거하고 flash attn 경로 순서 복구
fix: GELU의 NaN을 방지하기 위해 clamp 사용
fix: exp에 적절한 범위 사용, f32 exp에는 80이 더 안전함
macOS/iOS: macOS Apple Silicon (arm64)
macOS Apple Silicon (arm64, KleidiAI 활성화됨)
macOS Intel (x64)
iOS XCFramework
Linux: Ubuntu x64 (CPU)
Ubuntu arm64 (CPU)
Ubuntu s390x (CPU)
Ubuntu x64 (Vulkan)
Ubuntu arm64 (Vulkan)
Ubuntu x64 (ROCm 7.2)
Ubuntu x64 (OpenVINO)
Ubuntu x64 (SYCL FP32)
Ubuntu x64 (SYCL FP16)
Android: Android arm64 (CPU)
Windows: Windows x64 (CPU)
Windows arm64 (CPU)
Windows x64 (CUDA 12) - CUDA 12.4 DLLs
Windows x64 (CUDA 13) - CUDA 13.1 DLLs
Windows x64 (Vulkan)
Windows x64 (SYCL)
Windows x64 (HIP)
openEuler: openEuler x86 (310p)
openEuler x86 (910b, ACL Graph)
openEuler aarch64 (310p)
openEuler aarch64 (910b, ACL Graph)

AI 자동 생성 콘텐츠

원문 바로가기

ggml-webgpu: 멀티모달 (multimodal)을 위한 정밀도 문제 해결 ( #22808 ) fix(mixed-types): 정밀도를 위

요약

핵심 포인트

댓글