Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

llama.cpp Releases 145건필터 해제

b8931

이 기술 기사는 CUDA 및 다양한 플랫폼(macOS, Linux, Android, Windows 등)에서 MMQ 스트림-k 오버헤드를 줄이기 위한 최적화 변경 사항을 다루고 있습니다. 특히 kbc에 32비트 정수를 사용하도록 수정하여 성능 향상을 목표로 합니다. 광범위한 아키텍처와 프레임워크(CUDA, Vulkan, ROCm, OpenVINO, SYCL 등)를 지원하는 다양한 빌드 버전을 제공하며, 이는 다중 환경에서의 호환성과 효율성을 높이는 데 중점을 두고 있습니다.

4월 27일7

llama.cpp헤드라인

b8888

이번 업데이트는 llama.cpp의 SYCL 백엔드를 대폭 개선하여, 특히 MoE(Mixture-of-Experts) 모델과 BF16 연산에 대한 안정성과 성능을 높였습니다. 기존에는 큰 어휘 사전을 가진 모델에서 메모리 부족 오류가 발생할 수 있었으나, 이를 실제 라우팅된 행의 개수 기반으로 버퍼 크기를 조정하여 해결했습니다. 또한, DNNL 라이브러리를 활용해 BF16xBF16 -> F32 고속 경로를 추가함으로써, 대규모 매트릭스 연산 시 메모리 오버헤드를 줄이고 안정적인 추론을 가능하게 했습니다.

4월 23일7

llama.cpp중요헤드라인

b8891

이번 llama.cpp의 b8891 릴리스는 핵심적인 성능 개선과 호환성 확장에 초점을 맞추었습니다. 특히, WebGPU 백엔드에서 RMS_NORM + MUL 연산에 대한 퓨전(fusion) 기능을 추가하여 유연성을 높였으며, `GGML_WEBGPU_DISABLE_FUSION` 플래그를 통해 커널 퓨전을 비활성화할 수 있게 되었습니다. 또한, macOS/iOS (Apple Silicon 및 Intel), Linux (CPU, Vulkan, ROCm, OpenVINO 지원 강화), Android, Windows (CUDA 12/13,

4월 23일7

llama.cpp중요헤드라인

b8892

이번 릴리스는 llama.cpp의 성능과 호환성을 대폭 개선하는 데 초점을 맞추었습니다. 특히, 웹 기반 그래픽 API인 WebGPU를 비동기(async) 및 이벤트 처리 기능을 추가하여 구현함으로써 브라우저 환경에서의 AI 모델 구동 능력을 향상시켰습니다. 또한, macOS (Apple Silicon/Intel), Linux (CPU, Vulkan, ROCm 7.2, OpenVINO 등), Android, Windows, openEuler 등 광범위한 아키텍처와 운영체제 조합에 대한 빌드 지원을 제공하며 사용자 접근성을 극대화하고

4월 23일7

llama.cpp헤드라인

b8893

본 릴리즈는 llama.cpp의 광범위한 플랫폼 및 하드웨어 지원 확장을 다룹니다. 특히 AMD ROCm 관련 개선으로 인해 HIP 그래프 사용이 기본값으로 복원되었으며, 이는 성능 향상을 기대할 수 있게 합니다. macOS (Apple Silicon/Intel), Linux (다양한 아키텍처 및 백엔드 포함), Windows (CUDA 12/13, Vulkan, SYCL 등), Android, openEuler 등 거의 모든 주요 운영체제와 CPU/GPU 환경을 지원합니다. 개발자는 자신의 타겟 플랫폼에 맞는 최적의 빌드 옵션을

4월 23일7

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드