본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

llama.cpp Releases 144필터 해제

llama.cpp헤드라인

vulkan: f16에서 f16으로의 REPEAT 연산(op) 지원 추가

llama.cpp의 Vulkan 백엔드에 f16 데이터 타입을 위한 REPEAT 연산 지원이 추가되었습니다. 이번 업데이트를 통해 Vulkan 파이프라인 최적화와 데이터 타입 처리 방식의 개선이 이루어졌습니다.

5월 27일1
llama.cpp헤드라인

convert: MiniCPM5 토크나이저 (tokenizer) 지원 추가 ([#23384](https://github.com/ggml-org/

llama.cpp 프로젝트에서 MiniCPM5 모델을 위한 토크나이저 지원이 추가되었습니다. convert_hf_to_gguf_update.py를 통해 사전 토크나이저 해시를 추가하고 정규식 처리를 구현하여 모델 변환 호환성을 높였습니다.

5월 27일1
llama.cpp헤드라인

model: buft probe 수정을 위해 ffn_latent를 MUL_MAT으로 태깅 ([#23664](https://github.com/g

llama.cpp에서 buft probe 오류를 해결하기 위해 ffn_latent를 MUL_MAT으로 태깅하는 업데이트가 진행되었습니다. 이를 통해 Nemotron 3 Super 120B 모델의 추론 속도가 64.9 t/s에서 103.22 t/s로 크게 개선되었습니다.

5월 26일0
llama.cpp헤드라인

TP: ggml 컨텍스트 크기 계산 수정 ([#22616](https://github.com/ggml-org/llama.cpp/pull/2261

llama.cpp의 ggml 라이브러리에서 컨텍스트 크기 계산 오류와 메모리 누수 문제를 수정했습니다. 분할 상태 캐시 이동 및 정적 할당 텐서를 위한 여유 공간 확보를 통해 안정성을 개선했습니다.

5월 26일0
llama.cpp헤드라인

ggml: `gguf_init_from_callback` 및 `gguf_init_from_buffer` ([#22341](https://gith

ggml 라이브러리에 GGUF 모델 로딩을 위한 새로운 함수인 `gguf_init_from_callback` 및 `gguf_init_from_buffer`가 추가되었습니다. 이번 업데이트는 메모리 로드 방식의 일관성을 확보하고 오프셋 계산 오류 및 오버플로 방어 로직을 강화하는 데 중점을 두었습니다.

5월 25일0
llama.cpp헤드라인

b9313 릴리스

이번 릴리스는 ggml 라이브러리의 성능 개선 및 플랫폼 지원 확대를 다루고 있습니다. OpenMP를 활용하여 양자화(quant) 초기화 과정을 병렬화했으며, macOS, Linux, Android 등 다양한 운영체제와 아키텍처에 맞는 최신 바이너리를 제공합니다.

5월 25일0
llama.cpp헤드라인

server: 체크포인트 (checkpoints) 생성 수정 ([#22929](https://github.com/ggml-org/llama.cp

llama.cpp의 서버 기능에서 체크포인트 생성 로직을 개선했습니다. 채팅 템플릿 기반의 프롬프트 토큰 위치 탐색과 컨텍스트 체크포인트 생성을 통해 효율적인 프롬프트 배칭을 지원합니다.

5월 25일0
llama.cpp헤드라인

SYCL: MoE prefill 처리량 개선 ( #23142 ) k_copy_src1_to_contiguous를 변경하여, 특정 전문가(expe

SYCL에서 MoE prefill 처리량을 개선하기 위한 최적화 작업이 진행되었습니다. 기존의 복잡한 매핑 방식을 카운팅 정렬 기반의 연속적 매핑 방식으로 교체하여 연산 효율을 높였습니다.

5월 22일0
llama.cpp헤드라인

vulkan: snake 활성화 함수 융합 (mul, sin, sqr, mul, add) ( #22855 ) vulkan: snake 활성화 함

Vulkan 백엔드에서 Snake 활성화 함수를 위한 연산 융합(Operator Fusion) 기능을 추가했습니다. 5개의 개별 연산을 단일 요소별 커널로 재작성하여 F32, F16, BF16 파이프라인에서 성능을 최적화합니다.

5월 22일0
llama.cpp헤드라인

server: /slots 엔드포인트에서 프롬프트 토큰 수 노출 ( #23454 ) /slots JSON 응답에 n_prompt_tokens,

/slots 엔드포인트의 JSON 응답에 프롬프트 토큰 관련 필드들을 추가합니다. 이를 통해 클라이언트가 프롬프트 평가 진행 상황을 실시간으로 모니터링할 수 있습니다.

5월 22일0
llama.cpp헤드라인

metal: concat 커널 최적화 및 set 커널 스레드 수정 (#23411) metal: GGML_OP_SET 커널 스레드 수정 tests

llama.cpp의 Metal 커널 최적화 및 테스트 확장 업데이트입니다. concat 커널의 row batching을 통해 GPU 점유율을 높이고, CPY 연산의 다양한 텐서 형상 지원을 위한 테스트 케이스를 대폭 강화했습니다.

5월 21일0
llama.cpp헤드라인

server : VRAM 누수 수정을 위해 절전 시 free draft/MTP 리소스 해제 ( #23461 ) server_context_im

server_context_impl의 destroy() 함수에서 추측 디코더와 MTP 관련 리소스를 해제하지 않아 발생하던 VRAM 누수 문제를 해결했습니다. 절전 모드 진입 시 명시적인 리셋 과정을 추가하여 메모리 부족(OOM) 오류와 use-after-free 문제를 방지합니다.

5월 21일0
llama.cpp헤드라인

vocab : Carbon-3B (HybridDNATokenizer) 지원 추가 ( #23410 ) vocab : Carbon-3B (Hybri

HuggingFaceBio의 Carbon-3B 모델을 지원하기 위해 HybridDNATokenizer를 위한 새로운 BPE 프리타입을 추가했습니다. DNA 염기 서열을 6-mer 단위로 청킹하고 처리하는 로직을 llama.cpp 컨벤션에 맞춰 구현하고 리팩터링했습니다.

5월 21일0
llama.cpp헤드라인

llama-graph: SWA 전용 모델을 위한 llm_graph_input_attn_kv_iswa에서의 null-buffer 충돌 수정 ( #

llama-graph에서 SWA(Sliding Window Attention) 전용 모델 사용 시 발생하는 null-buffer 충돌 문제를 해결했습니다. 특정 레이어가 존재하지 않을 때 백엔드 스케줄러가 버퍼를 할당하지 않아 발생하는 assertion 오류와 null-dereference 문제를 방지하기 위한 가드를 추가했습니다.

5월 21일0
llama.cpp헤드라인

최신 NVIDIA GPU (Hopper+)에서 더 높은 성능을 위한 Programmatic Dependent Launch (PDL) ( #225

NVIDIA Hopper+ 아키텍처 GPU의 성능 최적화를 위해 Programmatic Dependent Launch(PDL) 기능을 도입하고 다양한 커널을 등록했습니다. PDL을 통해 커널 간 실행 중첩과 효율적인 동기화를 구현하며, Hopper+ 외의 아키텍처(Ada 등)에서의 성능 저하 및 컴파일 문제를 방지하기 위한 보호 로직을 포함합니다.

5월 20일0
llama.cpp헤드라인

app : llama 통합 실행 파일 도입 ( #23296 ) app : llama 통합 실행 파일 도입 Signed-off-by: Adrien

Hugging Face 프로젝트에서 Llama 모델을 실행하기 위한 통합 실행 파일 도입을 위한 변경 사항이 반영되었습니다. 서버용 serve 기능이 추가되었으며, macOS, Linux, Android, Windows, openEuler 등 다양한 운영체제와 하드웨어 가속(CUDA, Vulkan, ROCm, OpenVINO 등)을 지원합니다.

5월 20일0
llama.cpp헤드라인

llama : MTP 정리 ( #23269 ) lama : 부분 롤백 (partial rollback)이 있는 순환 메모리 (recurrent

llama.cpp 프로젝트의 MTP(Multi-Token Prediction) 및 투기적 디코딩(Speculative Decoding) 관련 기술적 업데이트 사항을 정리한 내용입니다. 순환 메모리(Recurrent Memory)의 부분 롤백 기능 개선, ngram 및 초안(draft) 설정 최적화, 그리고 다양한 운영체제 및 하드웨어 가속을 위한 빌드 지원 범위 확대를 포함합니다.

5월 20일1
llama.cpp헤드라인

hexagon: TRI 연산 (op) 지원 추가 ( #22822 ) Hexagon: ggml hexagon HTP 연산 (ops) 및 컨텍스트에

Hexagon HTP 연산 지원을 위해 ggml에 TRI HVX 커널이 추가되었습니다. 이번 업데이트에는 TRI 연산에 대한 PR 리뷰 반영과 함께 코드 포맷팅 및 중복 연산 제거 등 다양한 최적화 작업이 포함되었습니다.

5월 19일0
llama.cpp헤드라인

llama.cpp b9221 릴리스: ggml-hexagon PAD 연산 HVX 커널 추가 및 플랫폼 지원 업데이트

llama.cpp b9221 릴리스에서는 Hexagon HTP 백엔드를 위한 HVX 벡터화 커널 기반의 PAD 연산 지원이 추가되었습니다. 이를 통해 제로 패딩 및 순환 패딩을 4개 텐서 차원 전체에서 지원하며, macOS, Linux, Android, Windows, openEuler 등 다양한 플랫폼에 대한 지원 업데이트가 포함되었습니다.

5월 19일1
llama.cpp헤드라인

ggml-vulkan/CMakeLists: SPIRV-Headers 확인 로직 추가 ( #22009 ) ci/run: macOS Vulkan C

본 변경 사항은 ggml-vulkan 프로젝트의 CMakeLists에 SPIRV-Headers를 검색하는 로직을 추가하여 빌드 및 구성 안정성을 높이는 것을 목표로 합니다. 특히 CI 환경에서 파일들이 예상치 못한 경로(vulkan/)에 위치할 수 있는 문제를 해결하고, 이를 통해 필요한 SPIRV-Headers를 성공적으로 찾을 수 있도록 수정되었습니다. 이 변경은 macOS, Linux, Android, Windows 등 광범위한 플랫폼과 다양한 하드웨어/API 조합(CUDA, Vulkan, SYCL, ROCm 등)에서 프로젝트의 빌드 및 구성 오류를 방지하는 데 기여합니다.

5월 17일1

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.