본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

llama.cpp Releases 144필터 해제

llama.cpp헤드라인

모델: granite multilingual embeddings R2 (ibm-granite/granite-embedding-{97,311}m-

llama.cpp 프로젝트에서 IBM의 Granite Multilingual Embeddings R2 모델 지원을 추가했습니다. 97m 및 311m 파라미터 모델을 위한 토크나이저 설정, SwiGLU FFN 지원, GGUF 키 업데이트 등 기술적 구현 사항을 포함합니다.

6월 2일0
llama.cpp헤드라인

common : common_prompt_batch_decode 내 상태 저장 오류 수정 ([#23468](https://github.com/g

llama.cpp의 common_prompt_batch_decode 과정에서 발생하는 세션 상태 저장 및 복구 오류를 수정했습니다. session_tokens 저장 시 토큰 개수를 n개로 조정하여 동일 토큰이 잘못된 위치에서 재생되는 버그를 해결했습니다.

6월 2일0
llama.cpp헤드라인

ui: 추론 노력 수준(reasoning effort levels)이 포함된 Thinking 모드 토글 추가 + Chat Form Add Act

llama.cpp 프로젝트에 추론 노력 수준(reasoning effort levels)을 조절할 수 있는 Thinking 모드 토글과 개선된 채팅 폼 UI가 추가되었습니다. 모델의 사고 과정을 감지하고 제어할 수 있는 기능과 함께 다양한 플랫폼용 바이너리 업데이트가 포함되었습니다.

6월 2일0
llama.cpp헤드라인

hexagon: 최신 모델을 위한 MUL_MAT, MUL_MAT_ID, FLASH_ATTN 및 GDN 정리와 최적화 ([#23989](https

llama.cpp의 Hexagon DSP 최적화 업데이트로, 행렬 곱셈(matmul), Flash Attention, GDN 연산의 성능을 개선하고 중복 로직을 제거했습니다. Qwen3.5-2B 모델의 특정 오류를 수정하고 다양한 데이터 타입에 대한 효율적인 커널 라우팅을 지원합니다.

6월 2일0
llama.cpp헤드라인

server: 제어 엔드포인트를 통한 실시간 추론 중단 ([#23971](https://github.com/ggml-org/llama.cpp/p

llama.cpp 서버에 실시간 추론 중단 기능을 위한 제어 엔드포인트를 도입했습니다. TOCTOU 문제를 방지하기 위해 슬롯 ID 대신 채팅 완료 ID를 사용하여 추론 제어의 정확성을 높였으며, UI에서 사고 단계(thinking phase)를 추적할 수 있는 기능을 추가했습니다.

6월 2일0
llama.cpp헤드라인

speculative : n_outputs_max 수정 및 draft-simple 자동 활성화 제거 ([#23988](https://github

llama.cpp 프로젝트의 speculative decoding 관련 업데이트 사항을 담고 있습니다. n_outputs_max 로직 수정, draft-simple 자동 활성화 제거 및 다양한 플랫폼용 바이너리 릴리즈를 포함합니다.

6월 1일0
llama.cpp헤드라인

llama: `llama_context`의 최대 출력 제한 ([#23861](https://github.com/ggml-org/llama.cpp

llama.cpp의 llama_context 최대 출력 제한 관련 업데이트 사항을 다룹니다. VRAM 절약을 위한 메모리 예약 최적화와 n_outputs 관련 파라미터 조정이 포함되었습니다.

6월 1일0
llama.cpp헤드라인

metal: f16/f32를 지원하기 위한 GLU 커널 템플릿화 ([#23882](https://github.com/ggml-org/llama.

llama.cpp의 Metal 커널 업데이트를 통해 GLU 커널을 템플릿화하여 f16 및 f32 지원을 강화했습니다. 메모리 대역폭 효율을 위해 네이티브 타입을 사용하면서도, 수치 안정성을 위해 실제 연산은 float로 수행하도록 최적화되었습니다.

6월 1일0
llama.cpp헤드라인

model: EXAONE 4.5 구현 추가 ([#21733](https://github.com/ggml-org/llama.cpp/pull/217

llama.cpp 프로젝트에 EXAONE 4.5 모델 구현이 추가되었습니다. GQA 지원, 비전 마커 처리, Qwen2.5-VL 스타일의 인코딩 경로 라우팅 등 멀티모달 기능을 위한 기술적 업데이트가 포함되었습니다.

6월 1일0
llama.cpp헤드라인

vulkan: Q3_K/Q6_K 블록 데이터를 블록 로드(Block-load)하고 32비트 정수(32b ints)에서 뺄셈 수행 ([#23056

llama.cpp의 Vulkan 백엔드에서 Q3_K/Q6_K 양자화 데이터의 블록 로드 및 32비트 정수 뺄셈 최적화를 구현했습니다. 이를 통해 Intel BMG 및 Xe2 아키텍처에서 상당한 성능 향상을 달성했습니다.

6월 1일0
llama.cpp헤드라인

llama-bench에서 `-fa auto` 지원 ([#23714](https://github.com/ggml-org/llama.cpp/pull

llama.cpp의 벤치마크 도구인 llama-bench에서 `-fa auto` 옵션 지원이 추가되었습니다. 또한 `-ngl` 기본값을 -1로 설정하고 README를 업데이트하여 사용 편의성을 높였습니다.

5월 30일0
llama.cpp헤드라인

ggml : 일부 LSX 지원 추가 ([#23798](https://github.com/ggml-org/llama.cpp/pull/23798))

ggml 라이브러리에서 LoongArch 아키텍처를 위한 LSX 명령어 지원이 추가되었습니다. fp16 로드/스토어 최적화 및 다양한 양자화 방식(q8_0, q6_K, iq4_xs)에 대한 내적 연산 구현을 포함합니다.

5월 30일0
llama.cpp헤드라인

b9426: llama : RPC 장치만 존재할 때 iGPU를 건너뛰지 않도록 수정 (#23868)

llama.cpp에서 RPC 장치만 존재할 때 로컬 iGPU를 연산 장치에서 제외하던 버그를 수정했습니다. 이로 인해 Strix Halo와 같이 iGPU가 주요 장치인 시스템에서 모델 로딩이 실패하던 문제가 해결되었습니다.

5월 30일0
llama.cpp헤드라인

mtmd: DeepSeekOCR 2 지원 추가 ([#20975](https://github.com/ggml-org/llama.cpp/pull/2

llama.cpp 프로젝트에 DeepSeek-OCR 2 지원이 추가되었습니다. 멀티 타일 동적 해상도(mtmd) 기술을 포함하며, 연산 최적화 및 다양한 플랫폼용 빌드가 제공됩니다.

5월 29일0
llama.cpp헤드라인

CUDA: PDL 디스패치(dispatch)를 보호하기 위해 호스트 측에서 PTX 버전 확인 ([#23530](https://github.com

llama.cpp 프로젝트에서 CUDA PDL 디스패치 오류를 해결하기 위해 호스트 측에서 PTX 버전을 확인하는 로직을 추가했습니다. 또한 해시 분포 개선을 위해 MurmurHash3 mixer를 구현하고 코드 품질을 개선했습니다.

5월 29일0
llama.cpp헤드라인

model : 범용 DeepSeek Sparse Attention (DSA) 구현을 통한 DeepseekV32ForCausalLM 지원 ([#2

llama.cpp 프로젝트에서 DeepSeek V3.2 모델 제품군을 지원하기 위한 업데이트가 진행되었습니다. 범용 DeepSeek Sparse Attention(DSA) 구현과 NVFP4 지원을 통해 모델 추론 효율성을 높였습니다.

5월 29일0
llama.cpp헤드라인

hexagon: 기본적인/일반적인 연산 융합 (op fusion) 지원 및 RMS_NORM+MUL 융합 ([#23835](https://gith

본 기사는 llama.cpp 프로젝트의 업데이트 내용을 다루며, 기본적인 연산 융합(op fusion) 지원을 추가하고 RMS_NORM+MUL 융합 기능을 구현했습니다. 이를 통해 다양한 플랫폼(macOS, Linux, Android 등)에서 최적화된 성능으로 AI 모델을 구동할 수 있도록 여러 바이너리 버전을 제공합니다.

5월 29일0
llama.cpp헤드라인

CUDA: AMD MFMA 하드웨어에서 batch>=4인 양자화된 matmul을 MMQ로 라우팅 ([#23227](https://github.c

llama.cpp 프로젝트에서 AMD MFMA 하드웨어를 위한 양자화된 matmul 라우팅 최적화 패치가 적용되었습니다. 양자화 방식별로 최적의 배치 임계값을 다르게 설정하여 AMD CDNA 아키텍처에서의 추론 성능을 대폭 향상시켰습니다.

5월 29일0
llama.cpp헤드라인

hexagon: MUL_MAT 및 MUL_MAT_ID에서 Q4_1 지원 추가 ([#23647](https://github.com/ggml-org

llama.cpp의 Hexagon DSP 지원 업데이트를 통해 MUL_MAT 및 MUL_MAT_ID 연산에서 Q4_1 양자화 지원이 추가되었습니다. 이를 통해 ggml-hexagon이 전체 그래프를 점유하여 CPU 부하를 줄이고 효율적인 연산이 가능해졌습니다.

5월 27일0
llama.cpp헤드라인

vulkan: F16/32에 대해 MUL_MAT_VEC을 반복당 4 K로 전환 ([#22887](https://github.com/ggml-or

llama.cpp의 Vulkan 백엔드에서 F16/32 데이터 타입에 대한 MUL_MAT_VEC 연산 최적화를 진행했습니다. Intel BMG 환경에서 Qwen3.5-9B 모델 테스트 시 약 4.8%의 성능 향상을 달성했으며, 정렬된 로드 사용 및 OOB 읽기 문제를 수정했습니다.

5월 27일0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.