Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
llama.cpp Releases 145건필터 해제
b9070
이 기술 기사는 OpenCL을 사용하여 Adreno GPU에 대한 Q4_0 MoE GEMM 및 CLC 패스 검증(sanity check) 기능을 추가한 업데이트 내용을 담고 있습니다. 주요 개선 사항으로는 코드 가독성 향상을 위한 `#if` 블록 분할, 사용하지 않는 `cl_program` 제거, 그리고 전반적인 공백 수정 등이 포함되었습니다. 이 릴리스는 macOS, iOS, Linux, Android, Windows 등 광범위한 플랫폼과 다양한 백엔드(CUDA, Vulkan, SYCL, ROCm 등)를 지원하며, 여러 아키텍처 및 운영체제 환경에 걸쳐 테스트가 이루어졌음을 보여줍니다.
b9064
이 기술 기사는 'llama' 프로젝트의 디바이스 상태 저장 및 복구 기능을 개선한 업데이트에 대한 배포 목록을 제공합니다. macOS, iOS, Linux(다양한 아키텍처 및 백엔드 지원), Android, Windows, openEuler 등 광범위한 플랫폼과 환경에서 다양한 빌드가 포함되어 있습니다. 이는 llama 모델의 범용성과 접근성을 크게 향상시키는 중요한 업데이트입니다.
b9055
이 기술 기사는 Mimo v2.5 모델을 지원하기 위한 업데이트 내용을 담고 있습니다. 주요 수정 사항으로는 `modify_tensors`의 행 분할 문제 해결, 어텐션 가중치 스케일링(attn_value scale) 누락 처리, 그리고 TP (Tensor Parallelism) 반복 순서 조정 등이 포함됩니다. 또한, Mimo v2.5 모델에 대한 GGUF 변환 및 다양한 운영체제/하드웨어 아키텍처(macOS, Linux, Windows, Android 등)에서의 지원을 확장하고 최적화하는 작업이 이루어졌습니다.
b9058
이 기술 기사는 Llama 모델의 상태 복원(restore state) 과정에서 불필요한 시퀀스 ID(seq_id) 확인 로직을 제거하는 개선 사항에 대한 릴리스 노트를 담고 있습니다. 이 최적화는 다양한 운영체제 및 아키텍처 환경(macOS, iOS, Linux, Android, Windows 등)에서 Llama 모델의 성능과 안정성을 향상시키는 것을 목표로 합니다.
b9038
ggml 라이브러리가 OpenCL 메모리 추정 기능을 추가하고 이를 통해 성능 최적화가 가능해졌습니다. 또한, macOS, iOS, Linux, Android, Windows 등 광범위한 운영체제와 아키텍처를 지원하며 다양한 백엔드(CUDA, Vulkan, ROCm, SYCL 등) 통합을 완료하여 플랫폼 호환성과 범용성을 크게 향상시켰습니다.
b9049
llama.cpp의 v0.2.0-b9049 버전 업데이트는 MiniCPM-V 4.6 모델 지원을 주요 기능으로 추가했습니다. 이 외에도 전반적인 코드 버그 수정, 최적화(예: flash attention 지원), 그리고 다양한 플랫폼 및 아키텍처에 대한 광범위한 빌드 호환성을 확보했습니다. 사용자는 macOS, Linux (CPU/GPU 가속 포함), Android, Windows 등 거의 모든 주요 환경에서 이 업데이트된 llama.cpp를 사용할 수 있습니다.
b9045
llama.cpp v0.0.52는 IBM Granite 모델군에 대한 지원을 대폭 확장하여, 특히 음성 인식(Speech) 기능을 갖춘 Granite-4.0-1B-Speech 모델의 GGUF 변환기 지원을 추가했습니다. 이 릴리스는 GraniteSpeechTextModel을 기존 GraniteModel로 통합하고, Conformer 인코더와 QFormer 프로젝터 등 복잡한 오디오 처리 아키텍처를 효율적으로 구현하는 구조 개선 사항들을 포함합니다. 다양한 플랫폼(macOS, Linux, Windows, Android 등)에 걸쳐 최적화된 지원을 제공하며, 여러 하드웨어 가속기 및 백엔드를 포괄하여 범용성과 성능을 크게 향상시켰습니다.
b9041
ggml-cpu 프로젝트는 CPU 백엔드에서 RMS_NORM과 MUL 연산을 병합하여 성능을 최적화했습니다. 이 업데이트를 통해 macOS(Apple Silicon 및 Intel), Linux(다양한 아키텍처 및 API 지원 포함), Android, Windows, openEuler 등 광범위한 플랫폼에 걸쳐 다양한 하드웨어 가속기 및 CPU 환경에서 개선된 효율성을 제공합니다.
b9033
이 기술 기사는 ggml 라이브러리가 지원하는 광범위한 플랫폼 및 아키텍처 목록을 보여줍니다. macOS/iOS의 Apple Silicon(arm64)과 Intel(x64), 그리고 Linux 환경에서 Ubuntu, openEuler 등 다양한 운영체제와 CPU 아키텍처를 포괄합니다. 또한, CUDA, Vulkan, ROCm, OpenVINO, SYCL, HIP 등 최신 하드웨어 가속 및 컴퓨팅 API에 대한 지원을 강조하며, 개발자들이 어떤 환경에서도 모델을 효율적으로 실행할 수 있도록 설계되었음을 알 수 있습니다.
b9026
이 기술 기사는 ggml 라이브러리를 활용하여 빠른 Walsh-Hadamard 변환(WHT)을 통해 KV 회전 기능을 구현하는 방법을 다룹니다. 이 기능은 다양한 운영체제 및 아키텍처(macOS, iOS, Linux, Android, Windows 등)와 백엔드 가속기(CUDA, Vulkan, ROCm, OpenVINO, SYCL 등)를 지원하도록 포팅되었음을 보여줍니다.
b9019
본 릴리스는 llama.cpp 프로젝트의 v0.0.27 업데이트로, 모델 구조 정의 개선과 빌드 시스템 전반에 걸친 대대적인 최적화가 이루어졌습니다. 주요 변경 사항으로는 `load_hparams` 및 `load_tensors` 함수의 위치 조정, git 친화적인 마이그레이션 추가, 그리고 CMake를 통한 구형 코드 제거 등이 포함됩니다. 이 버전은 macOS(Apple Silicon/Intel), Linux(CPU, Vulkan, ROCm, OpenVINO 등 다양한 백엔드 지원), Android, Windows(CUDA 12/13, Vulkan, SYCL, HIP), openEuler 등 광범위한 플랫폼과 아키텍처를 지원합니다.
b9016
llama.cpp v0.0.2570 릴리스는 추측 해독(speculative decoding) 관련 파라미터 명명 규칙을 대폭 개선하고 문서를 업데이트했습니다. 주요 변경 사항으로는 `--draft-max/--draft-min`이 `--spec-draft-n-max/--spec-draft-n-min`으로 변경되었으며, 다양한 새로운 `--spec-ngram-*` 파라미터에 대한 문서가 추가되었습니다. 이 버전은 CPU, GPU(CUDA, Vulkan, ROCm 등), 그리고 여러 운영체제 및 아키텍처를 포괄하는 광범위한 빌드 지원을 제공합니다.
b9014
ggml-webgpu 프로젝트에 레이어 노멀레이션(Layer Normalization) 연산자가 추가되어 모델의 기능을 확장했습니다. 이 업데이트는 Kahan 합법을 사용한 부동소수점 계산 안정화 및 비연속 간격 처리를 개선하는 등 여러 기술적 최적화를 포함합니다. 다양한 아키텍처와 플랫폼(macOS, Linux, Windows, Android 등)에 대한 광범위한 지원이 제공되어 호환성과 성능이 향상되었습니다.
b9012
llama.cpp의 v0.0.252 버전이 릴리스되었습니다. 이번 업데이트는 Mistral 포맷에 apply_scale 지원을 추가하는 등 다양한 기능 개선과 버그 수정을 포함합니다. 특히, macOS, Linux, Android, Windows, openEuler 등 광범위한 플랫폼에서 CPU, GPU(CUDA, Vulkan, ROCm, OpenVINO 등), 그리고 아키텍처별 최적화된 빌드를 제공하여 사용자 접근성과 성능을 크게 향상시켰습니다.
b9010
이 커밋은 멀티 GPU 환경에서 CUDA 장치 PCI 버스 ID 중복 문제를 해결하고 Out-of-Memory(OOM) 오류를 방지하는 수정 사항을 포함합니다. 이 업데이트는 다양한 운영체제 및 아키텍처(macOS, Linux, Android, Windows 등)와 여러 컴퓨팅 백엔드(CUDA, ROCm, Vulkan, SYCL, HIP 등)를 지원하도록 확장되었으며, 특히 복잡한 멀티 GPU 환경에서의 장치 감지 안정성을 크게 향상시켰습니다.
b9009
이 기술 기사는 특정 버전의 소프트웨어(llama 관련)에 대한 다양한 플랫폼 및 아키텍처별 빌드 목록을 제공합니다. 주요 내용은 '서버: 호스트 복사 방지'와 관련된 업데이트 사항과 함께, macOS (Apple Silicon/Intel), Linux (다양한 CPU 및 그래픽 API 지원), Android, Windows (CUDA, Vulkan, SYCL 등 다중 백엔드 지원), 그리고 openEuler 환경에 이르기까지 광범위하게 최적화된 빌드를 포함하고 있습니다. 이는 사용자들이 자신의 특정 하드웨어 및 운영체제 환경에 맞는 버전을 선택할 수 있도록 폭넓은 호환성을 확보했음을 의미합니다.
b9008
이 기술 기사는 ggml-virtgpu 프로젝트의 버전 업데이트 및 빌드 상태를 안내합니다. 주요 수정 사항은 헤더 파일의 순환 의존성 문제를 해결한 것입니다. 이 업데이트는 macOS(Apple Silicon/Intel), iOS, Linux(다양한 아키텍처 및 백엔드 지원 포함), Android, Windows(CUDA, Vulkan, SYCL 등 다중 GPU API 지원), openEuler 등 광범위한 플랫폼과 환경에 걸쳐 빌드가 제공됨을 보여줍니다.
b9000
이 기술 기사는 Hexagon 프로세서 아키텍처에서 대규모 언어 모델(LLM)의 핵심 연산인 플래시 어텐션(Flash Attention) 및 행렬 곱셈(Matmul) 성능을 극대화하기 위한 최적화 작업들을 다룹니다. 주요 개선 사항으로는 Q6_ 인트린식으로의 아셈블리 코드 전환, 여러 HMX 워커에 대한 상류 최적화 적용, 그리고 Q 로드/O 스토어 작업을 멀티 스레딩 및 병렬 처리로 분산하는 것이 포함됩니다. 또한, 다양한 시나리오(예: prefill, GQA)에서 어텐션 계산의 정확도를 높이고 파이프라인 효율성을 개선하기 위한 세부적인 수정들이 이루어졌습니다.
b9006
이 기술 기사는 OpenCL 환경에서 Adreno GPU 최적화를 목표로 MoE(Mixture of Experts) 아키텍처와 MxFP4 정밀도를 지원하는 CLC 커널을 추가하고 관련 기능을 개선한 내용을 담고 있습니다. 주요 변경 사항으로는 MoE mxfp4 테스트를 위한 `test-backend-ops` 도입, GPU에서의 라우터 재정렬 기능 구현 등이 포함됩니다. 또한, 다양한 플랫폼(macOS, iOS, Linux, Android, Windows 등) 및 백엔드(CUDA, Vulkan, ROCm, SYCL 등)에 대한 광범위한 호환성 테스트와 최적화 작업이 이루어졌습니다.
b9002
이 문서는 'sync'라는 프로젝트 또는 라이브러리가 다양한 운영체제와 아키텍처를 지원하는 빌드 버전을 제공함을 보여줍니다. 특히 macOS(Apple Silicon 및 Intel), iOS, Linux(다양한 CPU/GPU 백엔드 포함), Android, Windows, openEuler 등 광범위한 플랫폼을 커버하며, 각 환경에 최적화된 포팅 옵션을 제공하여 높은 호환성과 접근성을 자랑합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.