Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
llama.cpp Releases 144건필터 해제
b9577 릴리스
llama.cpp의 b9577 릴리스가 발표되었으며, 주요 업데이트 사항으로 `--log-prompts-dir` 플래그를 추가하여 프롬프트 기록 기능을 제공합니다. 이 기능은 각 프롬프트를 지정된 디렉토리에 별도의 텍스트 파일로 저장할 수 있게 합니다.
server : 통합 KV 캐시 (unified KV cache) 없이 슬롯을 비우지 마십시오 ([#24190](https://github.co
llama.cpp의 서버 기능에서 통합 KV 캐시를 사용할 때 유휴 슬롯을 RAM으로 내보내는 최적화 작업이 포함되었습니다. 이를 통해 VRAM 캐시 누락을 방지하고 불필요한 전처리를 줄여 효율성을 높였습니다.
mtp: gemma-4 E2B 및 E4B 어시스턴트 지원 ([#24282](https://github.com/ggml-org/llama.cpp/
llama.cpp 프로젝트에서 Gemma-4 E2B 및 E4B 어시스턴트 모델 지원을 위한 업데이트가 진행되었습니다. 모델 컨버터 업데이트와 함께 gemma4-assist 아키텍처를 위한 masked_embd 텐서 추가 및 관련 디버그 코드가 정리되었습니다.
graph: iswa kq_mask를 자체 버퍼에서 보호하도록 수정 ([#24294](https://github.com/ggml-org/llam
llama.cpp 프로젝트에서 SWA(Sliding Window Attention) 전용 초안 헤드 사용 시 발생하는 kq_mask 버퍼 어설션 오류를 수정했습니다. set_input 및 can_reuse 단계에서 각 마스크를 자체 버퍼로 보호하도록 개선되었습니다.
mtmd : 비디오 입력 지원 추가 ([#24269](https://github.com/ggml-org/llama.cpp/pull/24269))
llama.cpp 프로젝트에서 비디오 입력 지원을 위한 mtmd 기능이 추가되었습니다. 서버의 base64 입력 지원, 타임스탬프 추가, CLI 업데이트 등 비디오 처리를 위한 다양한 기능이 포함되었습니다.
vulkan: mul_mat_id B 행렬 로드에 cm2 decode_vector 사용 ([#23991](https://github.com/gg
llama.cpp의 Vulkan 백엔드에서 B 행렬 로드 시 cm2 decode_vector를 사용하여 성능을 최적화하는 업데이트가 적용되었습니다. vec4 로드 기능과 BK 증가를 결합하여 상당한 속도 향상을 기대할 수 있습니다.
cuda: 메모리 크기 읽기 후 cuda 컨텍스트 재설정 ([#23935](https://github.com/ggml-org/llama.cpp/
llama.cpp의 최신 업데이트를 통해 CUDA 메모리 관리 로직이 개선되었습니다. 활성화된 백엔드가 없는 경우 디바이스를 재설정하고, 디바이스 및 호스트 버퍼 카운팅 기능을 추가했습니다.
common : 샘플러 이름 매칭 완화 ([#23744](https://github.com/ggml-org/llama.cpp/pull/23744
llama.cpp의 샘플러 이름 매칭 로직을 개선하여 표준 이름과 대체 이름(alias) 간의 호환성을 높였습니다. 대소문자 구분 없이 샘플러 이름을 인식하도록 수정하여 llama-server UI에서의 설정 오류 문제를 해결했습니다.
kv-cache: 셀 공유 시 소스 캐시 크기를 따름 ([#24267](https://github.com/ggml-org/llama.cpp/pu
llama.cpp의 kv-cache 셀 공유 시 발생하는 크기 불일치 및 어설션 오류를 해결하는 업데이트입니다. 맞춤형 타겟 컨텍스트가 초안 기본값보다 작을 때 K/V 텐서가 넘쳐흐르는 문제를 수정했습니다.
mtmd: qwen-vl 기반 모델을 위한 "frame merge" 지원 ([#21858](https://github.com/ggml-org/l
llama.cpp 프로젝트에서 Qwen-VL 기반 모델을 위한 'frame merge' 기능을 지원합니다. 이번 업데이트를 통해 Qwen3.5 모델의 비디오 지원이 추가되었으며, 다양한 플랫폼용 바이너리 릴리즈가 포함되었습니다.
opencl: get_rows, cpy, concat 및 q6_k flat gemv 개선 ([#24160](https://github.com/g
llama.cpp의 OpenCL 커널 성능 개선 사항을 담은 업데이트입니다. get_rows, cpy, concat 및 q6_k flat gemv 연산의 최적화를 통해 연산 효율을 높였으며, 다양한 OS 및 하드웨어 환경을 위한 바이너리를 제공합니다.
vulkan: shmem reduction을 통한 Intel용 fwht 지원 추가 ([#23964](https://github.com/ggml-
llama.cpp의 Vulkan 백엔드 업데이트를 통해 Intel GPU를 위한 fwht 지원이 추가되었습니다. shmem reduction 기술을 활용하며, 다양한 OS 및 하드웨어 환경을 위한 최신 바이너리 릴리즈를 포함합니다.
sycl : CUDA 백엔드로부터 multi-column MMVQ 포팅 ([#21845](https://github.com/ggml-org/ll
llama.cpp 프로젝트에서 CUDA 백엔드의 multi-column MMVQ 최적화 로직을 SYCL로 포팅했습니다. 이를 통해 다양한 양자화 유형을 지원하며, 작은 멀티 컬럼 배치에서도 가중치 재정렬 커널이 작동하도록 개선되었습니다.
b9503 버전 릴리스
llama.cpp의 b9503 버전이 릴리스되었습니다. 이번 업데이트에서는 Gemma 4 오디오 프로젝터의 임베딩 크기 처리 관련 버그 수정이 포함되었습니다.
ggml: WASM SIMD128을 사용하여 ggml_vec_dot_q4_1_q8_1 벡터화 ([#22209](https://github.com
ggml 라이브러리에서 WASM SIMD128 인트린직을 사용하여 q4_1_q8_1 벡터 연산을 최적화했습니다. 이를 통해 WebAssembly 환경에서의 연산 속도를 기존 스칼라 구현 대비 약 3.42배 향상시켰습니다.
server: 새로운 토큰이 존재할 때 불필요한 체크포인트 복구 방지 ([#24110](https://github.com/ggml-org/lla
llama.cpp의 server 모듈에서 새로운 토큰이 존재할 경우 불필요한 체크포인트 복구가 발생하는 문제를 해결했습니다. 새로운 토큰이 없을 때만 조건부로 계산을 적용하여 중복되는 KV 상태 복구를 방지합니다.
ggml-webgpu: FlashAttention 리팩터링 (refactor) + 양자화 (quantization) 지원 표준화 ([#23834
ggml-webgpu의 FlashAttention 리팩터링과 양자화 지원 표준화에 관한 업데이트입니다. K/V 양자화 분리 및 타일 경로에 양자화 로직을 추가하여 성능과 구조를 개선했습니다.
ggml-cpu: RVV 양자화 벡터 내적 (quantization vec dot)을 더 높은 VLENs로 확장 ([#22754](https:/
llama.cpp의 ggml-cpu 라이브러리에서 RVV(RISC-V Vector) 양자화 벡터 내적 연산을 더 높은 VLENs(512b, 1024b)로 확장하는 업데이트가 진행되었습니다. 다양한 양자화 방식(iq4_xs, q6_K 등)에 대한 구현이 추가되어 RISC-V 환경에서의 추론 성능 최적화를 목표로 합니다.
PDL 사용 시 **restrict**를 비활성화하여 PDL 레이스 컨디션 (race conditions) 방지 ([#24030](https:/
llama.cpp 프로젝트에서 PDL 사용 시 발생하는 레이스 컨디션을 방지하기 위해 restrict 키워드를 비활성화하는 업데이트가 진행되었습니다. 아키텍처별 전처리기 지시문을 통해 성능 저하를 최소화하며, hopper 아키텍처에 대한 지원도 추가되었습니다.
b9488 릴리스 노트
llama.cpp의 b9488 릴리스 노트로, Qwen3 SSM 아키텍처 지원이 추가되었습니다. macOS, Linux, Android, Windows 등 다양한 플랫폼을 위한 바이너리 배포가 포함되어 있습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.