Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
llama.cpp Releases 144건필터 해제
모델: granite multilingual embeddings R2 (ibm-granite/granite-embedding-{97,311}m-
llama.cpp 프로젝트에서 IBM의 Granite Multilingual Embeddings R2 모델 지원을 추가했습니다. 97m 및 311m 파라미터 모델을 위한 토크나이저 설정, SwiGLU FFN 지원, GGUF 키 업데이트 등 기술적 구현 사항을 포함합니다.
common : common_prompt_batch_decode 내 상태 저장 오류 수정 ([#23468](https://github.com/g
llama.cpp의 common_prompt_batch_decode 과정에서 발생하는 세션 상태 저장 및 복구 오류를 수정했습니다. session_tokens 저장 시 토큰 개수를 n개로 조정하여 동일 토큰이 잘못된 위치에서 재생되는 버그를 해결했습니다.
ui: 추론 노력 수준(reasoning effort levels)이 포함된 Thinking 모드 토글 추가 + Chat Form Add Act
llama.cpp 프로젝트에 추론 노력 수준(reasoning effort levels)을 조절할 수 있는 Thinking 모드 토글과 개선된 채팅 폼 UI가 추가되었습니다. 모델의 사고 과정을 감지하고 제어할 수 있는 기능과 함께 다양한 플랫폼용 바이너리 업데이트가 포함되었습니다.
hexagon: 최신 모델을 위한 MUL_MAT, MUL_MAT_ID, FLASH_ATTN 및 GDN 정리와 최적화 ([#23989](https
llama.cpp의 Hexagon DSP 최적화 업데이트로, 행렬 곱셈(matmul), Flash Attention, GDN 연산의 성능을 개선하고 중복 로직을 제거했습니다. Qwen3.5-2B 모델의 특정 오류를 수정하고 다양한 데이터 타입에 대한 효율적인 커널 라우팅을 지원합니다.
server: 제어 엔드포인트를 통한 실시간 추론 중단 ([#23971](https://github.com/ggml-org/llama.cpp/p
llama.cpp 서버에 실시간 추론 중단 기능을 위한 제어 엔드포인트를 도입했습니다. TOCTOU 문제를 방지하기 위해 슬롯 ID 대신 채팅 완료 ID를 사용하여 추론 제어의 정확성을 높였으며, UI에서 사고 단계(thinking phase)를 추적할 수 있는 기능을 추가했습니다.
speculative : n_outputs_max 수정 및 draft-simple 자동 활성화 제거 ([#23988](https://github
llama.cpp 프로젝트의 speculative decoding 관련 업데이트 사항을 담고 있습니다. n_outputs_max 로직 수정, draft-simple 자동 활성화 제거 및 다양한 플랫폼용 바이너리 릴리즈를 포함합니다.
llama: `llama_context`의 최대 출력 제한 ([#23861](https://github.com/ggml-org/llama.cpp
llama.cpp의 llama_context 최대 출력 제한 관련 업데이트 사항을 다룹니다. VRAM 절약을 위한 메모리 예약 최적화와 n_outputs 관련 파라미터 조정이 포함되었습니다.
metal: f16/f32를 지원하기 위한 GLU 커널 템플릿화 ([#23882](https://github.com/ggml-org/llama.
llama.cpp의 Metal 커널 업데이트를 통해 GLU 커널을 템플릿화하여 f16 및 f32 지원을 강화했습니다. 메모리 대역폭 효율을 위해 네이티브 타입을 사용하면서도, 수치 안정성을 위해 실제 연산은 float로 수행하도록 최적화되었습니다.
model: EXAONE 4.5 구현 추가 ([#21733](https://github.com/ggml-org/llama.cpp/pull/217
llama.cpp 프로젝트에 EXAONE 4.5 모델 구현이 추가되었습니다. GQA 지원, 비전 마커 처리, Qwen2.5-VL 스타일의 인코딩 경로 라우팅 등 멀티모달 기능을 위한 기술적 업데이트가 포함되었습니다.
vulkan: Q3_K/Q6_K 블록 데이터를 블록 로드(Block-load)하고 32비트 정수(32b ints)에서 뺄셈 수행 ([#23056
llama.cpp의 Vulkan 백엔드에서 Q3_K/Q6_K 양자화 데이터의 블록 로드 및 32비트 정수 뺄셈 최적화를 구현했습니다. 이를 통해 Intel BMG 및 Xe2 아키텍처에서 상당한 성능 향상을 달성했습니다.
llama-bench에서 `-fa auto` 지원 ([#23714](https://github.com/ggml-org/llama.cpp/pull
llama.cpp의 벤치마크 도구인 llama-bench에서 `-fa auto` 옵션 지원이 추가되었습니다. 또한 `-ngl` 기본값을 -1로 설정하고 README를 업데이트하여 사용 편의성을 높였습니다.
ggml : 일부 LSX 지원 추가 ([#23798](https://github.com/ggml-org/llama.cpp/pull/23798))
ggml 라이브러리에서 LoongArch 아키텍처를 위한 LSX 명령어 지원이 추가되었습니다. fp16 로드/스토어 최적화 및 다양한 양자화 방식(q8_0, q6_K, iq4_xs)에 대한 내적 연산 구현을 포함합니다.
b9426: llama : RPC 장치만 존재할 때 iGPU를 건너뛰지 않도록 수정 (#23868)
llama.cpp에서 RPC 장치만 존재할 때 로컬 iGPU를 연산 장치에서 제외하던 버그를 수정했습니다. 이로 인해 Strix Halo와 같이 iGPU가 주요 장치인 시스템에서 모델 로딩이 실패하던 문제가 해결되었습니다.
mtmd: DeepSeekOCR 2 지원 추가 ([#20975](https://github.com/ggml-org/llama.cpp/pull/2
llama.cpp 프로젝트에 DeepSeek-OCR 2 지원이 추가되었습니다. 멀티 타일 동적 해상도(mtmd) 기술을 포함하며, 연산 최적화 및 다양한 플랫폼용 빌드가 제공됩니다.
CUDA: PDL 디스패치(dispatch)를 보호하기 위해 호스트 측에서 PTX 버전 확인 ([#23530](https://github.com
llama.cpp 프로젝트에서 CUDA PDL 디스패치 오류를 해결하기 위해 호스트 측에서 PTX 버전을 확인하는 로직을 추가했습니다. 또한 해시 분포 개선을 위해 MurmurHash3 mixer를 구현하고 코드 품질을 개선했습니다.
model : 범용 DeepSeek Sparse Attention (DSA) 구현을 통한 DeepseekV32ForCausalLM 지원 ([#2
llama.cpp 프로젝트에서 DeepSeek V3.2 모델 제품군을 지원하기 위한 업데이트가 진행되었습니다. 범용 DeepSeek Sparse Attention(DSA) 구현과 NVFP4 지원을 통해 모델 추론 효율성을 높였습니다.
hexagon: 기본적인/일반적인 연산 융합 (op fusion) 지원 및 RMS_NORM+MUL 융합 ([#23835](https://gith
본 기사는 llama.cpp 프로젝트의 업데이트 내용을 다루며, 기본적인 연산 융합(op fusion) 지원을 추가하고 RMS_NORM+MUL 융합 기능을 구현했습니다. 이를 통해 다양한 플랫폼(macOS, Linux, Android 등)에서 최적화된 성능으로 AI 모델을 구동할 수 있도록 여러 바이너리 버전을 제공합니다.
CUDA: AMD MFMA 하드웨어에서 batch>=4인 양자화된 matmul을 MMQ로 라우팅 ([#23227](https://github.c
llama.cpp 프로젝트에서 AMD MFMA 하드웨어를 위한 양자화된 matmul 라우팅 최적화 패치가 적용되었습니다. 양자화 방식별로 최적의 배치 임계값을 다르게 설정하여 AMD CDNA 아키텍처에서의 추론 성능을 대폭 향상시켰습니다.
hexagon: MUL_MAT 및 MUL_MAT_ID에서 Q4_1 지원 추가 ([#23647](https://github.com/ggml-org
llama.cpp의 Hexagon DSP 지원 업데이트를 통해 MUL_MAT 및 MUL_MAT_ID 연산에서 Q4_1 양자화 지원이 추가되었습니다. 이를 통해 ggml-hexagon이 전체 그래프를 점유하여 CPU 부하를 줄이고 효율적인 연산이 가능해졌습니다.
vulkan: F16/32에 대해 MUL_MAT_VEC을 반복당 4 K로 전환 ([#22887](https://github.com/ggml-or
llama.cpp의 Vulkan 백엔드에서 F16/32 데이터 타입에 대한 MUL_MAT_VEC 연산 최적화를 진행했습니다. Intel BMG 환경에서 Qwen3.5-9B 모델 테스트 시 약 4.8%의 성능 향상을 달성했으며, 정렬된 로드 사용 및 OOB 읽기 문제를 수정했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.