Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
llama.cpp Releases 34건필터 해제
b8966
이 기술 기사는 ggml-cuda 라이브러리에 FlashAttention 지원을 추가한 업데이트에 대한 내용을 담고 있습니다. 특히 GQA(Grouped Query Attention) 비율이 32인 경우(DKQ=320/DV=256, ncols2=32)를 지원하며, MMA-f16 및 타일 커널 구성, 디스패치 로직 등을 개선했습니다. 또한 다양한 플랫폼(macOS, iOS, Linux, Android, Windows 등)과 아키텍처(CPU, CUDA, Vulkan, ROCm, OpenVINO, SYCL 등)에 대한 지원을 확장하고 버그를 수정하여 호환성을 높였습니다.
b8964
이 기술 기사는 LLM 추론 과정에서 'DONE' 상태가 새로운 토큰(새로운 시작 태그 포함)을 흡수하여 이후의 모든 사고(think) 블록이 예산 없이 실행되는 문제를 해결한 내용을 다룹니다. 이 문제는 특히 응답당 여러 블록을 교차하는 모델(예: unsloth/Qwen3.6-27B-GGUF)에서 관찰되었습니다. 수정 방법은 DONE 분기에서 start_matcher를 전진시키고 매칭 시 COUNTING 상태로 재설정하여 새로운 예산을 부여하는 것입니다.
b8962
이 기술 기사는 ggml-webgpu 프로젝트의 업데이트 내용을 담고 있으며, 특히 'ssm_scan' 함수의 버퍼 대역 사용 문제를 해결하고 관련 로직을 리팩토링한 작업에 초점을 맞추고 있습니다. 또한 포맷팅 처리 완료와 함께 macOS, Linux, Android, Windows, openEuler 등 광범위한 플랫폼 및 아키텍처(CPU, GPU 백엔드 포함)를 지원하는 빌드 목록을 제공하여 프로젝트의 높은 호환성과 확장성을 보여줍니다.
ggml-webgpu: Q1_0 지원 추가 및 최적화
ggml-webgpu 프로젝트가 Q1_0 양자화 지원을 추가하고 성능 최적화를 진행했습니다. 주요 업데이트 내용으로는 빠른 행렬 곱(matmul) 및 행렬 벡터 곱(matvec)에 대한 Q1_0 커널이 추가되었으며, 공유 메모리 초기화 과정에서 불필요한 영 영역 채우기가 제거되어 효율성이 개선되었습니다. 이와 함께 macOS, Linux, Android, Windows 등 광범위한 플랫폼과 다양한 하드웨어 가속기(CUDA, Vulkan, ROCm, OpenVINO, SYCL 등)에 대한 빌드 및 지원을 대폭 확장했습니다.
b8927
이 기술 기사는 다양한 플랫폼과 아키텍처를 지원하는 소프트웨어 업데이트 및 최적화 내용을 담고 있습니다. 주요 내용은 Arc770 GPU에 대한 Q4_0 행렬 곱셈(mul_mat) 지원 추가와 스크립트, 가이드의 전반적인 개선입니다. 특히 macOS (Apple Silicon/Intel), Linux (다양한 CPU 및 그래픽 API 포함), Windows (CUDA, Vulkan, SYCL, HIP 등), Android, 그리고 openEuler까지 광범위하게 플랫폼 호환성을 확장하고 최적화했음을 보여줍니다.
b8940
이 기술 기사는 텐서(tensor)의 부분 읽기 및 쓰기를 지원하기 위해 재귀 상태 직렬화 로직을 수정한 내용을 다루고 있습니다. 이전 버전은 전체 텐서에 대한 읽기/쓰기만 가능하여, llama-server 테스트 시 메모리 크기 단언(GGML_ASSERT) 위반 문제가 발생했습니다. 이 수정으로 인해 다양한 아키텍처와 프레임워크(CUDA, Vulkan, ROCm, OpenVINO 등)를 포괄하는 광범위한 플랫폼 지원이 가능해졌습니다.
b8949
이 기술 기사는 다양한 운영체제 및 아키텍처를 지원하는 소프트웨어의 빌드 및 배포 목록을 보여줍니다. 주요 수정 사항으로는 Windows 환경에서 RPC 서버 캐시 문제 해결과 디렉토리 생성 및 로그 파일명 표시 기능 개선 등이 포함되었습니다. 특히 macOS, Linux, Android, 그리고 Windows와 openEuler 등 광범위한 플랫폼에 걸쳐 CPU, GPU(CUDA, Vulkan, ROCm, OpenVINO, SYCL, HIP), 그리고 특정 아키텍처별 빌드 버전이 제공됨을 알 수 있습니다.
b8951
이 기술 기사는 'i-quant(아이-퀀트)' 기능을 지원하기 위해 다양한 운영체제 및 아키텍처에 걸쳐 최적화된 행-벡터 커널을 추가한 내용을 담고 있습니다. macOS, Linux, Android, Windows 등 주요 플랫폼별로 Apple Silicon (arm64), Intel (x64)부터 CPU, Vulkan, CUDA, ROCm, OpenVINO, SYCL, HIP 등 광범위한 백엔드 및 API를 지원하는 빌드 목록을 제공합니다.
b8943
이 커밋은 `llama.cpp`의 공통(common) 모듈을 대대적으로 리팩토링하여 코드 구조와 의존성을 개선했습니다. 주요 변경 사항으로는 디버깅 관련 로직(`abort_on_nan`)을 전역 멤버 변수에서 `base_callback_data`로 이동시키고, Pimpl 패턴을 사용하여 헤더 파일의 의존성을 줄인 것입니다. 이러한 리팩토링은 컴파일 시간을 단축하고 모듈 간의 결합도를 낮추는 데 기여합니다.
b8931
이 기술 기사는 CUDA 및 다양한 플랫폼(macOS, Linux, Android, Windows 등)에서 MMQ 스트림-k 오버헤드를 줄이기 위한 최적화 변경 사항을 다루고 있습니다. 특히 kbc에 32비트 정수를 사용하도록 수정하여 성능 향상을 목표로 합니다. 광범위한 아키텍처와 프레임워크(CUDA, Vulkan, ROCm, OpenVINO, SYCL 등)를 지원하는 다양한 빌드 버전을 제공하며, 이는 다중 환경에서의 호환성과 효율성을 높이는 데 중점을 두고 있습니다.
llama.cpp Sycl 최적화: BF16 지원 및 메모리 효율성 개선
이번 업데이트는 llama.cpp의 SYCL 백엔드를 대폭 개선하여, 특히 MoE(Mixture-of-Experts) 모델과 BF16 연산에 대한 안정성과 성능을 높였습니다. 기존에는 큰 어휘 사전을 가진 모델에서 메모리 부족 오류가 발생할 수 있었으나, 이를 실제 라우팅된 행의 개수 기반으로 버퍼 크기를 조정하여 해결했습니다. 또한, DNNL 라이브러리를 활용해 BF16xBF16 -> F32 고속 경로를 추가함으로써, 대규모 매트릭스 연산 시 메모리 오버헤드를 줄이고 안정적인 추론을 가능하게 했습니다.
llama.cpp 최신 빌드(b8891): WebGPU 및 다양한 플랫폼 지원 강화
이번 llama.cpp의 b8891 릴리스는 핵심적인 성능 개선과 호환성 확장에 초점을 맞추었습니다. 특히, WebGPU 백엔드에서 RMS_NORM + MUL 연산에 대한 퓨전(fusion) 기능을 추가하여 유연성을 높였으며, `GGML_WEBGPU_DISABLE_FUSION` 플래그를 통해 커널 퓨전을 비활성화할 수 있게 되었습니다. 또한, macOS/iOS (Apple Silicon 및 Intel), Linux (CPU, Vulkan, ROCm, OpenVINO 지원 강화), Android, Windows (CUDA 12/13,
llama.cpp WebGPU 및 다양한 플랫폼 지원 업데이트 요약
이번 릴리스는 llama.cpp의 성능과 호환성을 대폭 개선하는 데 초점을 맞추었습니다. 특히, 웹 기반 그래픽 API인 WebGPU를 비동기(async) 및 이벤트 처리 기능을 추가하여 구현함으로써 브라우저 환경에서의 AI 모델 구동 능력을 향상시켰습니다. 또한, macOS (Apple Silicon/Intel), Linux (CPU, Vulkan, ROCm 7.2, OpenVINO 등), Android, Windows, openEuler 등 광범위한 아키텍처와 운영체제 조합에 대한 빌드 지원을 제공하며 사용자 접근성을 극대화하고
llama.cpp 최신 빌드 지원 환경 및 아키텍처 분석
본 릴리즈는 llama.cpp의 광범위한 플랫폼 및 하드웨어 지원 확장을 다룹니다. 특히 AMD ROCm 관련 개선으로 인해 HIP 그래프 사용이 기본값으로 복원되었으며, 이는 성능 향상을 기대할 수 있게 합니다. macOS (Apple Silicon/Intel), Linux (다양한 아키텍처 및 백엔드 포함), Windows (CUDA 12/13, Vulkan, SYCL 등), Android, openEuler 등 거의 모든 주요 운영체제와 CPU/GPU 환경을 지원합니다. 개발자는 자신의 타겟 플랫폼에 맞는 최적의 빌드 옵션을
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.