r/LocalLLaMA분석2026. 06. 24. 19:03

llama.cpp 업데이트 - granite-speech-4.1-2b, LFM2.5-ColBERT/Embedding-350M, Vulkan

요약

llama.cpp의 최신 업데이트를 통해 granite-speech-4.1-2b 및 LFM2.5 임베딩 모델 지원이 추가되었습니다. 또한 Vulkan 백엔드의 성능 개선과 다양한 연산 지원 및 UI/UX 개선이 포함되었습니다.

핵심 포인트

granite-speech-4.1-2b 및 LFM2.5 임베딩 모델 지원 추가
Vulkan 백엔드의 다양한 연산 및 테스트 지원 강화
Vulkan 오버플로 방지를 위한 softmax bias 적용 수정
모바일 UI/UX 개선 및 내비게이션 정리

지원되는 모델:

granite-speech-4.1-2b-plus (작성자: 24818)
LFM2.5-ColBERT-350M & LFM2.5-Embedding-350M (작성자: 24913)

Vulkan:

vulkan: GGML_VULKAN_CHECK_RESULTS / RUN_TESTS가 활성화되었을 때 ggml-cpu를 링크하도록 수정 #24444
vulkan: mul_mm ALIGNED를 스펙 상수(spec constant)로 설정 #24689
vulkan: CONV_3D 지원 #24612
vulkan: GET_ROWS_BACK 지원 #24883
vulkan: SQR/SQRT/SIN/COS/CLAMP/LEAKY_RELU/NORM에 대한 모든 백엔드 테스트 지원 #24582
vulkan: 오버플로(overflow)를 방지하기 위해 FA에서 softmax 적용 전 bias를 적용하도록 수정 #24909

기타:

ui: 새로운 로고 + 내비게이션 정리 및 모바일 UI/UX 개선 #24897
기타 수정 사항 등

Vulkan 목록이 pp/tg(전문가분들이 알려주실 수 있습니다)에 어느 정도 향상을 줄 수 있기를 바랍니다.
(해당 모델들을 위해) 여러 개의 스레드를 게시하고 싶지 않아, 이 단일 스레드에 모든 기타 항목을 포함했습니다.
submitted by /u/pmttyji
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

llama.cpp 업데이트 - granite-speech-4.1-2b, LFM2.5-ColBERT/Embedding-350M, Vulkan

요약

핵심 포인트

댓글