© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

llama.cpp Releases 34건필터 해제

llama.cpp헤드라인

llama.cpp v0.0.2570 (b9016) 릴리스

llama.cpp v0.0.2570 릴리스는 추측 해독(speculative decoding) 관련 파라미터 명명 규칙을 대폭 개선하고 문서를 업데이트했습니다. 주요 변경 사항으로는 `--draft-max/--draft-min`이 `--spec-draft-n-max/--spec-draft-n-min`으로 변경되었으며, 다양한 새로운 `--spec-ngram-*` 파라미터에 대한 문서가 추가되었습니다. 이 버전은 CPU, GPU(CUDA, Vulkan, ROCm 등), 그리고 여러 운영체제 및 아키텍처를 포괄하는 광범위한 빌드 지원을 제공합니다.

llama.cppspeculative-decodingllm-inferencegpu-accelerationmultihardware

llama.cpp헤드라인

ggml-webgpu: 레이어 노멀레이션 연산자 추가 (#22406)

ggml-webgpu 프로젝트에 레이어 노멀레이션(Layer Normalization) 연산자가 추가되어 모델의 기능을 확장했습니다. 이 업데이트는 Kahan 합법을 사용한 부동소수점 계산 안정화 및 비연속 간격 처리를 개선하는 등 여러 기술적 최적화를 포함합니다. 다양한 아키텍처와 플랫폼(macOS, Linux, Windows, Android 등)에 대한 광범위한 지원이 제공되어 호환성과 성능이 향상되었습니다.

webgpudeep-learningllm

llama.cpp헤드라인

llama.cpp v0.0.252 (b9012) 릴리스

llama.cpp의 v0.0.252 버전이 릴리스되었습니다. 이번 업데이트는 Mistral 포맷에 apply_scale 지원을 추가하는 등 다양한 기능 개선과 버그 수정을 포함합니다. 특히, macOS, Linux, Android, Windows, openEuler 등 광범위한 플랫폼에서 CPU, GPU(CUDA, Vulkan, ROCm, OpenVINO 등), 그리고 아키텍처별 최적화된 빌드를 제공하여 사용자 접근성과 성능을 크게 향상시켰습니다.

llama.cppllm-inferencequantization

llama.cpp헤드라인

fix: CUDA 장치 PCI 버스 ID 중복 제거 및 OOM 방지 (다른 3 개 GPU 를 완전히 무시함) (#22533) fix: 멀티 GP

이 커밋은 멀티 GPU 환경에서 CUDA 장치 PCI 버스 ID 중복 문제를 해결하고 Out-of-Memory(OOM) 오류를 방지하는 수정 사항을 포함합니다. 이 업데이트는 다양한 운영체제 및 아키텍처(macOS, Linux, Android, Windows 등)와 여러 컴퓨팅 백엔드(CUDA, ROCm, Vulkan, SYCL, HIP 등)를 지원하도록 확장되었으며, 특히 복잡한 멀티 GPU 환경에서의 장치 감지 안정성을 크게 향상시켰습니다.

cudamulti-gpupci-bus-id

llama.cpp헤드라인

server : host 복사 방지 (체크포인트 데이터) (#22558) server : host 복사 방지 (체크포인트 데이터) llama :

이 기술 기사는 특정 버전의 소프트웨어(llama 관련)에 대한 다양한 플랫폼 및 아키텍처별 빌드 목록을 제공합니다. 주요 내용은 '서버: 호스트 복사 방지'와 관련된 업데이트 사항과 함께, macOS (Apple Silicon/Intel), Linux (다양한 CPU 및 그래픽 API 지원), Android, Windows (CUDA, Vulkan, SYCL 등 다중 백엔드 지원), 그리고 openEuler 환경에 이르기까지 광범위하게 최적화된 빌드를 포함하고 있습니다. 이는 사용자들이 자신의 특정 하드웨어 및 운영체제 환경에 맞는 버전을 선택할 수 있도록 폭넓은 호환성을 확보했음을 의미합니다.

llamacross-platformoptimization

llama.cpp헤드라인

ggml-virtgpu: 헤더의 순환 의존성 수정 (#22557) macOS/iOS: - macOS Apple Silicon (arm64) -

이 기술 기사는 ggml-virtgpu 프로젝트의 버전 업데이트 및 빌드 상태를 안내합니다. 주요 수정 사항은 헤더 파일의 순환 의존성 문제를 해결한 것입니다. 이 업데이트는 macOS(Apple Silicon/Intel), iOS, Linux(다양한 아키텍처 및 백엔드 지원 포함), Android, Windows(CUDA, Vulkan, SYCL 등 다중 GPU API 지원), openEuler 등 광범위한 플랫폼과 환경에 걸쳐 빌드가 제공됨을 보여줍니다.

ggmlvirtgpumacos

llama.cpp헤드라인

hexagon: hmx flash attention (#22347) hmx: 공유 인터리브 헤더 추출 및 matmul 배치 통합 hmx: pre

이 기술 기사는 Hexagon 프로세서 아키텍처에서 대규모 언어 모델(LLM)의 핵심 연산인 플래시 어텐션(Flash Attention) 및 행렬 곱셈(Matmul) 성능을 극대화하기 위한 최적화 작업들을 다룹니다. 주요 개선 사항으로는 Q6_ 인트린식으로의 아셈블리 코드 전환, 여러 HMX 워커에 대한 상류 최적화 적용, 그리고 Q 로드/O 스토어 작업을 멀티 스레딩 및 병렬 처리로 분산하는 것이 포함됩니다. 또한, 다양한 시나리오(예: prefill, GQA)에서 어텐션 계산의 정확도를 높이고 파이프라인 효율성을 개선하기 위한 세부적인 수정들이 이루어졌습니다.

hexagonflash-attentionllm

llama.cpp헤드라인

opencl: Adreno 최적화를 위한 MoE - MxFP4 (#22301) MoE Mxfp4 CLC 커널 추가 GPU 에서 라우터 재정렬 (

이 기술 기사는 OpenCL 환경에서 Adreno GPU 최적화를 목표로 MoE(Mixture of Experts) 아키텍처와 MxFP4 정밀도를 지원하는 CLC 커널을 추가하고 관련 기능을 개선한 내용을 담고 있습니다. 주요 변경 사항으로는 MoE mxfp4 테스트를 위한 `test-backend-ops` 도입, GPU에서의 라우터 재정렬 기능 구현 등이 포함됩니다. 또한, 다양한 플랫폼(macOS, iOS, Linux, Android, Windows 등) 및 백엔드(CUDA, Vulkan, ROCm, SYCL 등)에 대한 광범위한 호환성 테스트와 최적화 작업이 이루어졌습니다.

opencladrenomoe

llama.cpp헤드라인

sync : ggml macOS/iOS: - macOS Apple Silicon (arm64) - macOS Apple Silicon (arm6

이 문서는 'sync'라는 프로젝트 또는 라이브러리가 다양한 운영체제와 아키텍처를 지원하는 빌드 버전을 제공함을 보여줍니다. 특히 macOS(Apple Silicon 및 Intel), iOS, Linux(다양한 CPU/GPU 백엔드 포함), Android, Windows, openEuler 등 광범위한 플랫폼을 커버하며, 각 환경에 최적화된 포팅 옵션을 제공하여 높은 호환성과 접근성을 자랑합니다.

cross-platformmacoslinux

llama.cpp헤드라인

sync : ggml macOS/iOS: macOS Apple Silicon (arm64) macOS Apple Silicon (arm64, K

이 문서는 'sync'라는 프로젝트 또는 라이브러리의 다양한 플랫폼 및 아키텍처별 지원 현황을 나열하고 있습니다. macOS(Apple Silicon/Intel), iOS, Linux(Ubuntu 기반의 CPU, Vulkan, ROCm, OpenVINO 등 다양한 백엔드 포함), Android, Windows(CUDA, Vulkan, SYCL, HIP 등 GPU 가속 옵션 제공), 그리고 openEuler까지 광범위하게 지원합니다. 이는 해당 기술이 매우 폭넓은 환경에서 구동될 수 있음을 보여줍니다.

cross-platformapple-silicongpu-acceleration

llama.cpp헤드라인

llama-quant: --tensor-type 수정 (기본 qtype 이 오버라이드될 때, #22572) #22544 수정 (내 실수!) @A

이 기술 기사는 llama-quant 프로젝트의 주요 업데이트 및 수정 사항을 다루고 있습니다. 특히 `--tensor-type` 관련 기능 개선과 기본 양자화 타입(qtype) 오버라이드 처리 로직에 대한 수정을 포함합니다. 또한, macOS, Linux, Android, Windows, openEuler 등 광범위한 다양한 아키텍처와 프레임워크(CUDA, ROCm, Vulkan, OpenVINO, SYCL 등)를 지원하는 빌드 목록을 제공하며 프로젝트의 포괄적인 호환성을 강조하고 있습니다.

llama-quantquantizationllm

llama.cpp헤드라인

ggml-webgpu: mul-mat 및 mul-mat-id 에서 벡터화 처리 수정 (#22578) mul-mat-fast 파이프라인의 벡터화

본 기술 기사는 ggml-webgpu 라이브러리의 성능 개선을 다루며, 특히 `mul-mat` 및 `mul-mat-id` 함수에서 벡터화 처리 로직을 수정하고 최적화했습니다. 주요 목표는 `mul-mat-fast` 파이프라인의 벡터화 조건을 개선하여 전반적인 연산 속도를 향상시키는 것입니다. 이 업데이트는 macOS, Linux, Android, Windows 등 광범위한 다양한 아키텍처와 백엔드(CPU, Vulkan, CUDA, ROCm, OpenVINO 등)를 지원합니다.

ggmlwebgpuoptimization

llama.cpp헤드라인

llama-mmap 업데이트: ftello/fseeko 사용 (#22497) llama-mmap 업데이트: 32-bit wasm 및 >2GB 모

llama-mmap 라이브러리가 대규모 언어 모델(LLM)의 배포 및 호환성을 크게 향상시킨 업데이트를 발표했습니다. 이번 업데이트는 32비트 WASM 지원과 2GB 이상의 대용량 모델을 처리할 수 있는 기능을 추가한 것이 핵심입니다. 또한, macOS (Apple Silicon/Intel), Linux (CPU, Vulkan, ROCm, OpenVINO 등 다양한 백엔드 포함), Android, Windows, openEuler 등 광범위한 운영체제 및 아키텍처를 지원하는 빌드를 제공하여 범용성을 극대화했습니다.

llama-mmapllmwasm

llama.cpp헤드라인

vulkan: get/set tensor 2d 함수 추가 (#22514) vulkan: get_tensor_2d 및 set_tensor_2d 함

이 기술 기사는 ggml 라이브러리에 2차원 텐서(tensor)를 가져오고 설정하는 함수인 `get_tensor_2d` 및 `set_tensor_2d`가 추가되었음을 알립니다. 이 업데이트는 백엔드 인터페이스 주석을 수정하고, macOS, Linux, Android, Windows 등 광범위한 플랫폼과 다양한 하드웨어 가속기(Vulkan, CUDA, ROCm, OpenVINO, SYCL, HIP)를 지원하도록 라이브러리의 호환성을 크게 확장했습니다.

ggmlvulkantensor-operations

llama.cpp헤드라인

ggml-cuda: fusion 코드 리팩토링 (#22468) ggml-cuda: fusion 코드 리팩토링 및 포맷팅 적용 + 환경 변수 tr

이 기술 기사는 ggml-cuda 프로젝트의 'fusion' 코드에 대한 대규모 리팩토링 및 포맷팅 작업을 다루고 있습니다. 주요 변경 사항에는 환경 변수 처리 로직을 `truthy` 값으로 수정하는 것이 포함되었습니다. 이 업데이트는 macOS, Linux, Android, Windows, openEuler 등 광범위한 플랫폼과 다양한 하드웨어 가속기(CUDA, Vulkan, ROCm, OpenVINO, SYCL, HIP)를 지원하도록 코드를 개선하고 최적화했음을 보여줍니다.

ggmlcudagpu-acceleration

llama.cpp헤드라인

ggml: gemm_q8_0_4x8_q8_0() 커널을 위한 SVE 튜닝 코드 추가 (#21916) gemm_q8_0_4x8_q8_0() 커널을

이 기술 기사는 ggml 라이브러리에 `gemm_q8_0_4x8_q8_0()` 커널을 위한 SVE(Scalable Vector Extension) 튜닝 코드를 추가한 내용을 다룹니다. 이 업데이트는 특정 행렬 곱셈(GEMM) 연산의 성능 최적화를 목표로 하며, `repack.cpp` 파일에서 배열 정의를 `static const`로 변경하는 등의 코드 개선을 포함합니다.

llama.cpp헤드라인

ggml-webgpu: FlashAttention 지원 확인에 있는 버그 수정 (#22492) FlashAttention 지원 확인을 subgr

이 기술 기사는 ggml-webgpu 라이브러리에서 FlashAttention 지원 확인 과정 중 발견된 버그를 수정하는 내용을 다룹니다. 특히 서브그룹(subgroups)을 지원하지 않는 다양한 장치 환경에 대한 호환성 문제를 해결하여, 더 넓은 범위의 하드웨어 및 운영체제 조합에서 FlashAttention 기능이 안정적으로 작동하도록 보장합니다.

ggml-webgpuflashattentionbugfix

llama.cpp헤드라인

ggml-cuda: 21896 번 게시물의 재게시: Blackwell 네이티브 NVFP4 지원 (#22196) macOS/iOS: - macOS

이 기술 기사는 ggml-cuda 프로젝트의 다양한 플랫폼 및 아키텍처별 빌드 버전을 안내합니다. macOS(Apple Silicon/Intel), Linux(Ubuntu 기반 CPU, Vulkan, ROCm, OpenVINO 등), Android, Windows, openEuler 등 광범위한 환경을 지원하며, 특히 최신 Blackwell 네이티브 NVFP4 지원과 같은 기술적 업데이트가 포함되어 있습니다. 사용자는 자신의 운영체제와 하드웨어에 맞는 특정 빌드를 선택하여 사용할 수 있습니다.

ggmlcudamachine-learning

llama.cpp헤드라인

b8957

이 기술 기사는 GGML 라이브러리에서 `find_library` 함수를 표준적인 `-lm` 링크 방식으로 되돌리는 것에 대한 논의를 담고 있습니다. 최근 도입된 `find_library(MATH_LIBRARY m)` 기능은 `GGML_STATIC`과 CUDA 컴파일 시 문제를 일으키는 것으로 보고되었으며, 이 커밋은 해당 기능을 유지할 필요가 있는지 검토하고, 문제가 해결하려던 원래 목적을 명확히 하며, CUDA와 충돌하지 않는 대안적인 수정 방법을 찾는 것을 목표로 합니다. 또한, 다양한 운영체제(macOS, Linux, Android, Windows 등) 및 아키텍처에 대한 광범위한 빌드 지원 목록이 제공됩니다.

ggmllibrary-linkingcuda

llama.cpp헤드라인

b8956

이 기술 기사는 GGML 라이브러리의 백엔드(Backend) 기능을 대폭 개선한 내용을 담고 있습니다. 주요 내용은 새로운 연산자 추가(예: `GGML_OP_SET`, `GGML_OP_CUMSUM`), 기존 연산자의 성능 최적화(예: GLU, CROSS_ENTROPY_LOSS), 그리고 여러 버그 수정 및 아키텍처 개선 사항을 포함합니다. 이를 통해 다양한 하드웨어 플랫폼(CPU, GPU, NPU 등)에서 더 빠르고 안정적인 AI 모델 추론 및 학습 환경을 제공하는 것을 목표로 합니다.

ggmlbackend-optimizationai-inference

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.