본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

llama.cpp Releases 145필터 해제

llama.cpp헤드라인

b9004

이 문서는 'sync'라는 프로젝트 또는 라이브러리의 다양한 플랫폼 및 아키텍처별 지원 현황을 나열하고 있습니다. macOS(Apple Silicon/Intel), iOS, Linux(Ubuntu 기반의 CPU, Vulkan, ROCm, OpenVINO 등 다양한 백엔드 포함), Android, Windows(CUDA, Vulkan, SYCL, HIP 등 GPU 가속 옵션 제공), 그리고 openEuler까지 광범위하게 지원합니다. 이는 해당 기술이 매우 폭넓은 환경에서 구동될 수 있음을 보여줍니다.

5월 2일10
llama.cpp헤드라인

b8999

이 기술 기사는 llama-quant 프로젝트의 주요 업데이트 및 수정 사항을 다루고 있습니다. 특히 `--tensor-type` 관련 기능 개선과 기본 양자화 타입(qtype) 오버라이드 처리 로직에 대한 수정을 포함합니다. 또한, macOS, Linux, Android, Windows, openEuler 등 광범위한 다양한 아키텍처와 프레임워크(CUDA, ROCm, Vulkan, OpenVINO, SYCL 등)를 지원하는 빌드 목록을 제공하며 프로젝트의 포괄적인 호환성을 강조하고 있습니다.

5월 1일9
llama.cpp헤드라인

b8996

본 기술 기사는 ggml-webgpu 라이브러리의 성능 개선을 다루며, 특히 `mul-mat` 및 `mul-mat-id` 함수에서 벡터화 처리 로직을 수정하고 최적화했습니다. 주요 목표는 `mul-mat-fast` 파이프라인의 벡터화 조건을 개선하여 전반적인 연산 속도를 향상시키는 것입니다. 이 업데이트는 macOS, Linux, Android, Windows 등 광범위한 다양한 아키텍처와 백엔드(CPU, Vulkan, CUDA, ROCm, OpenVINO 등)를 지원합니다.

5월 1일9
llama.cpp헤드라인

b8992

llama-mmap 라이브러리가 대규모 언어 모델(LLM)의 배포 및 호환성을 크게 향상시킨 업데이트를 발표했습니다. 이번 업데이트는 32비트 WASM 지원과 2GB 이상의 대용량 모델을 처리할 수 있는 기능을 추가한 것이 핵심입니다. 또한, macOS (Apple Silicon/Intel), Linux (CPU, Vulkan, ROCm, OpenVINO 등 다양한 백엔드 포함), Android, Windows, openEuler 등 광범위한 운영체제 및 아키텍처를 지원하는 빌드를 제공하여 범용성을 극대화했습니다.

5월 1일13
llama.cpp헤드라인

b8990

이 기술 기사는 ggml 라이브러리에 2차원 텐서(tensor)를 가져오고 설정하는 함수인 `get_tensor_2d` 및 `set_tensor_2d`가 추가되었음을 알립니다. 이 업데이트는 백엔드 인터페이스 주석을 수정하고, macOS, Linux, Android, Windows 등 광범위한 플랫폼과 다양한 하드웨어 가속기(Vulkan, CUDA, ROCm, OpenVINO, SYCL, HIP)를 지원하도록 라이브러리의 호환성을 크게 확장했습니다.

4월 30일9
llama.cpp헤드라인

b8973

이 기술 기사는 ggml-cuda 프로젝트의 'fusion' 코드에 대한 대규모 리팩토링 및 포맷팅 작업을 다루고 있습니다. 주요 변경 사항에는 환경 변수 처리 로직을 `truthy` 값으로 수정하는 것이 포함되었습니다. 이 업데이트는 macOS, Linux, Android, Windows, openEuler 등 광범위한 플랫폼과 다양한 하드웨어 가속기(CUDA, Vulkan, ROCm, OpenVINO, SYCL, HIP)를 지원하도록 코드를 개선하고 최적화했음을 보여줍니다.

4월 30일10
llama.cpp헤드라인

b8969

이 기술 기사는 ggml 라이브러리에 `gemm_q8_0_4x8_q8_0()` 커널을 위한 SVE(Scalable Vector Extension) 튜닝 코드를 추가한 내용을 다룹니다. 이 업데이트는 특정 행렬 곱셈(GEMM) 연산의 성능 최적화를 목표로 하며, `repack.cpp` 파일에서 배열 정의를 `static const`로 변경하는 등의 코드 개선을 포함합니다.

4월 30일11
llama.cpp헤드라인

b8971

이 기술 기사는 ggml-webgpu 라이브러리에서 FlashAttention 지원 확인 과정 중 발견된 버그를 수정하는 내용을 다룹니다. 특히 서브그룹(subgroups)을 지원하지 않는 다양한 장치 환경에 대한 호환성 문제를 해결하여, 더 넓은 범위의 하드웨어 및 운영체제 조합에서 FlashAttention 기능이 안정적으로 작동하도록 보장합니다.

4월 29일9
llama.cpp헤드라인

b8967

이 기술 기사는 ggml-cuda 프로젝트의 다양한 플랫폼 및 아키텍처별 빌드 버전을 안내합니다. macOS(Apple Silicon/Intel), Linux(Ubuntu 기반 CPU, Vulkan, ROCm, OpenVINO 등), Android, Windows, openEuler 등 광범위한 환경을 지원하며, 특히 최신 Blackwell 네이티브 NVFP4 지원과 같은 기술적 업데이트가 포함되어 있습니다. 사용자는 자신의 운영체제와 하드웨어에 맞는 특정 빌드를 선택하여 사용할 수 있습니다.

4월 29일9
llama.cpp헤드라인

b8957

이 기술 기사는 GGML 라이브러리에서 `find_library` 함수를 표준적인 `-lm` 링크 방식으로 되돌리는 것에 대한 논의를 담고 있습니다. 최근 도입된 `find_library(MATH_LIBRARY m)` 기능은 `GGML_STATIC`과 CUDA 컴파일 시 문제를 일으키는 것으로 보고되었으며, 이 커밋은 해당 기능을 유지할 필요가 있는지 검토하고, 문제가 해결하려던 원래 목적을 명확히 하며, CUDA와 충돌하지 않는 대안적인 수정 방법을 찾는 것을 목표로 합니다. 또한, 다양한 운영체제(macOS, Linux, Android, Windows 등) 및 아키텍처에 대한 광범위한 빌드 지원 목록이 제공됩니다.

4월 29일9
llama.cpp헤드라인

b8956

이 기술 기사는 GGML 라이브러리의 백엔드(Backend) 기능을 대폭 개선한 내용을 담고 있습니다. 주요 내용은 새로운 연산자 추가(예: `GGML_OP_SET`, `GGML_OP_CUMSUM`), 기존 연산자의 성능 최적화(예: GLU, CROSS_ENTROPY_LOSS), 그리고 여러 버그 수정 및 아키텍처 개선 사항을 포함합니다. 이를 통해 다양한 하드웨어 플랫폼(CPU, GPU, NPU 등)에서 더 빠르고 안정적인 AI 모델 추론 및 학습 환경을 제공하는 것을 목표로 합니다.

4월 29일9
llama.cpp헤드라인

b8966

이 기술 기사는 ggml-cuda 라이브러리에 FlashAttention 지원을 추가한 업데이트에 대한 내용을 담고 있습니다. 특히 GQA(Grouped Query Attention) 비율이 32인 경우(DKQ=320/DV=256, ncols2=32)를 지원하며, MMA-f16 및 타일 커널 구성, 디스패치 로직 등을 개선했습니다. 또한 다양한 플랫폼(macOS, iOS, Linux, Android, Windows 등)과 아키텍처(CPU, CUDA, Vulkan, ROCm, OpenVINO, SYCL 등)에 대한 지원을 확장하고 버그를 수정하여 호환성을 높였습니다.

4월 29일8
llama.cpp헤드라인

b8964

이 기술 기사는 LLM 추론 과정에서 'DONE' 상태가 새로운 토큰(새로운 시작 태그 포함)을 흡수하여 이후의 모든 사고(think) 블록이 예산 없이 실행되는 문제를 해결한 내용을 다룹니다. 이 문제는 특히 응답당 여러 블록을 교차하는 모델(예: unsloth/Qwen3.6-27B-GGUF)에서 관찰되었습니다. 수정 방법은 DONE 분기에서 start_matcher를 전진시키고 매칭 시 COUNTING 상태로 재설정하여 새로운 예산을 부여하는 것입니다.

4월 28일8
llama.cpp헤드라인

b8962

이 기술 기사는 ggml-webgpu 프로젝트의 업데이트 내용을 담고 있으며, 특히 'ssm_scan' 함수의 버퍼 대역 사용 문제를 해결하고 관련 로직을 리팩토링한 작업에 초점을 맞추고 있습니다. 또한 포맷팅 처리 완료와 함께 macOS, Linux, Android, Windows, openEuler 등 광범위한 플랫폼 및 아키텍처(CPU, GPU 백엔드 포함)를 지원하는 빌드 목록을 제공하여 프로젝트의 높은 호환성과 확장성을 보여줍니다.

4월 28일11
llama.cpp헤드라인

b8953

ggml-webgpu 프로젝트가 Q1_0 양자화 지원을 추가하고 성능 최적화를 진행했습니다. 주요 업데이트 내용으로는 빠른 행렬 곱(matmul) 및 행렬 벡터 곱(matvec)에 대한 Q1_0 커널이 추가되었으며, 공유 메모리 초기화 과정에서 불필요한 영 영역 채우기가 제거되어 효율성이 개선되었습니다. 이와 함께 macOS, Linux, Android, Windows 등 광범위한 플랫폼과 다양한 하드웨어 가속기(CUDA, Vulkan, ROCm, OpenVINO, SYCL 등)에 대한 빌드 및 지원을 대폭 확장했습니다.

4월 28일7
llama.cpp헤드라인

b8927

이 기술 기사는 다양한 플랫폼과 아키텍처를 지원하는 소프트웨어 업데이트 및 최적화 내용을 담고 있습니다. 주요 내용은 Arc770 GPU에 대한 Q4_0 행렬 곱셈(mul_mat) 지원 추가와 스크립트, 가이드의 전반적인 개선입니다. 특히 macOS (Apple Silicon/Intel), Linux (다양한 CPU 및 그래픽 API 포함), Windows (CUDA, Vulkan, SYCL, HIP 등), Android, 그리고 openEuler까지 광범위하게 플랫폼 호환성을 확장하고 최적화했음을 보여줍니다.

4월 28일11
llama.cpp헤드라인

b8940

이 기술 기사는 텐서(tensor)의 부분 읽기 및 쓰기를 지원하기 위해 재귀 상태 직렬화 로직을 수정한 내용을 다루고 있습니다. 이전 버전은 전체 텐서에 대한 읽기/쓰기만 가능하여, llama-server 테스트 시 메모리 크기 단언(GGML_ASSERT) 위반 문제가 발생했습니다. 이 수정으로 인해 다양한 아키텍처와 프레임워크(CUDA, Vulkan, ROCm, OpenVINO 등)를 포괄하는 광범위한 플랫폼 지원이 가능해졌습니다.

4월 28일8
llama.cpp헤드라인

b8949

이 기술 기사는 다양한 운영체제 및 아키텍처를 지원하는 소프트웨어의 빌드 및 배포 목록을 보여줍니다. 주요 수정 사항으로는 Windows 환경에서 RPC 서버 캐시 문제 해결과 디렉토리 생성 및 로그 파일명 표시 기능 개선 등이 포함되었습니다. 특히 macOS, Linux, Android, 그리고 Windows와 openEuler 등 광범위한 플랫폼에 걸쳐 CPU, GPU(CUDA, Vulkan, ROCm, OpenVINO, SYCL, HIP), 그리고 특정 아키텍처별 빌드 버전이 제공됨을 알 수 있습니다.

4월 28일8
llama.cpp헤드라인

b8951

이 기술 기사는 'i-quant(아이-퀀트)' 기능을 지원하기 위해 다양한 운영체제 및 아키텍처에 걸쳐 최적화된 행-벡터 커널을 추가한 내용을 담고 있습니다. macOS, Linux, Android, Windows 등 주요 플랫폼별로 Apple Silicon (arm64), Intel (x64)부터 CPU, Vulkan, CUDA, ROCm, OpenVINO, SYCL, HIP 등 광범위한 백엔드 및 API를 지원하는 빌드 목록을 제공합니다.

4월 28일9
llama.cpp헤드라인

b8943

이 커밋은 `llama.cpp`의 공통(common) 모듈을 대대적으로 리팩토링하여 코드 구조와 의존성을 개선했습니다. 주요 변경 사항으로는 디버깅 관련 로직(`abort_on_nan`)을 전역 멤버 변수에서 `base_callback_data`로 이동시키고, Pimpl 패턴을 사용하여 헤더 파일의 의존성을 줄인 것입니다. 이러한 리팩토링은 컴파일 시간을 단축하고 모듈 간의 결합도를 낮추는 데 기여합니다.

4월 28일8

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.