Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
llama.cpp Releases 144건필터 해제
vulkan: f16에서 f16으로의 REPEAT 연산(op) 지원 추가
llama.cpp의 Vulkan 백엔드에 f16 데이터 타입을 위한 REPEAT 연산 지원이 추가되었습니다. 이번 업데이트를 통해 Vulkan 파이프라인 최적화와 데이터 타입 처리 방식의 개선이 이루어졌습니다.
convert: MiniCPM5 토크나이저 (tokenizer) 지원 추가 ([#23384](https://github.com/ggml-org/
llama.cpp 프로젝트에서 MiniCPM5 모델을 위한 토크나이저 지원이 추가되었습니다. convert_hf_to_gguf_update.py를 통해 사전 토크나이저 해시를 추가하고 정규식 처리를 구현하여 모델 변환 호환성을 높였습니다.
model: buft probe 수정을 위해 ffn_latent를 MUL_MAT으로 태깅 ([#23664](https://github.com/g
llama.cpp에서 buft probe 오류를 해결하기 위해 ffn_latent를 MUL_MAT으로 태깅하는 업데이트가 진행되었습니다. 이를 통해 Nemotron 3 Super 120B 모델의 추론 속도가 64.9 t/s에서 103.22 t/s로 크게 개선되었습니다.
TP: ggml 컨텍스트 크기 계산 수정 ([#22616](https://github.com/ggml-org/llama.cpp/pull/2261
llama.cpp의 ggml 라이브러리에서 컨텍스트 크기 계산 오류와 메모리 누수 문제를 수정했습니다. 분할 상태 캐시 이동 및 정적 할당 텐서를 위한 여유 공간 확보를 통해 안정성을 개선했습니다.
ggml: `gguf_init_from_callback` 및 `gguf_init_from_buffer` ([#22341](https://gith
ggml 라이브러리에 GGUF 모델 로딩을 위한 새로운 함수인 `gguf_init_from_callback` 및 `gguf_init_from_buffer`가 추가되었습니다. 이번 업데이트는 메모리 로드 방식의 일관성을 확보하고 오프셋 계산 오류 및 오버플로 방어 로직을 강화하는 데 중점을 두었습니다.
b9313 릴리스
이번 릴리스는 ggml 라이브러리의 성능 개선 및 플랫폼 지원 확대를 다루고 있습니다. OpenMP를 활용하여 양자화(quant) 초기화 과정을 병렬화했으며, macOS, Linux, Android 등 다양한 운영체제와 아키텍처에 맞는 최신 바이너리를 제공합니다.
server: 체크포인트 (checkpoints) 생성 수정 ([#22929](https://github.com/ggml-org/llama.cp
llama.cpp의 서버 기능에서 체크포인트 생성 로직을 개선했습니다. 채팅 템플릿 기반의 프롬프트 토큰 위치 탐색과 컨텍스트 체크포인트 생성을 통해 효율적인 프롬프트 배칭을 지원합니다.
SYCL: MoE prefill 처리량 개선 ( #23142 ) k_copy_src1_to_contiguous를 변경하여, 특정 전문가(expe
SYCL에서 MoE prefill 처리량을 개선하기 위한 최적화 작업이 진행되었습니다. 기존의 복잡한 매핑 방식을 카운팅 정렬 기반의 연속적 매핑 방식으로 교체하여 연산 효율을 높였습니다.
vulkan: snake 활성화 함수 융합 (mul, sin, sqr, mul, add) ( #22855 ) vulkan: snake 활성화 함
Vulkan 백엔드에서 Snake 활성화 함수를 위한 연산 융합(Operator Fusion) 기능을 추가했습니다. 5개의 개별 연산을 단일 요소별 커널로 재작성하여 F32, F16, BF16 파이프라인에서 성능을 최적화합니다.
server: /slots 엔드포인트에서 프롬프트 토큰 수 노출 ( #23454 ) /slots JSON 응답에 n_prompt_tokens,
/slots 엔드포인트의 JSON 응답에 프롬프트 토큰 관련 필드들을 추가합니다. 이를 통해 클라이언트가 프롬프트 평가 진행 상황을 실시간으로 모니터링할 수 있습니다.
metal: concat 커널 최적화 및 set 커널 스레드 수정 (#23411) metal: GGML_OP_SET 커널 스레드 수정 tests
llama.cpp의 Metal 커널 최적화 및 테스트 확장 업데이트입니다. concat 커널의 row batching을 통해 GPU 점유율을 높이고, CPY 연산의 다양한 텐서 형상 지원을 위한 테스트 케이스를 대폭 강화했습니다.
server : VRAM 누수 수정을 위해 절전 시 free draft/MTP 리소스 해제 ( #23461 ) server_context_im
server_context_impl의 destroy() 함수에서 추측 디코더와 MTP 관련 리소스를 해제하지 않아 발생하던 VRAM 누수 문제를 해결했습니다. 절전 모드 진입 시 명시적인 리셋 과정을 추가하여 메모리 부족(OOM) 오류와 use-after-free 문제를 방지합니다.
vocab : Carbon-3B (HybridDNATokenizer) 지원 추가 ( #23410 ) vocab : Carbon-3B (Hybri
HuggingFaceBio의 Carbon-3B 모델을 지원하기 위해 HybridDNATokenizer를 위한 새로운 BPE 프리타입을 추가했습니다. DNA 염기 서열을 6-mer 단위로 청킹하고 처리하는 로직을 llama.cpp 컨벤션에 맞춰 구현하고 리팩터링했습니다.
llama-graph: SWA 전용 모델을 위한 llm_graph_input_attn_kv_iswa에서의 null-buffer 충돌 수정 ( #
llama-graph에서 SWA(Sliding Window Attention) 전용 모델 사용 시 발생하는 null-buffer 충돌 문제를 해결했습니다. 특정 레이어가 존재하지 않을 때 백엔드 스케줄러가 버퍼를 할당하지 않아 발생하는 assertion 오류와 null-dereference 문제를 방지하기 위한 가드를 추가했습니다.
최신 NVIDIA GPU (Hopper+)에서 더 높은 성능을 위한 Programmatic Dependent Launch (PDL) ( #225
NVIDIA Hopper+ 아키텍처 GPU의 성능 최적화를 위해 Programmatic Dependent Launch(PDL) 기능을 도입하고 다양한 커널을 등록했습니다. PDL을 통해 커널 간 실행 중첩과 효율적인 동기화를 구현하며, Hopper+ 외의 아키텍처(Ada 등)에서의 성능 저하 및 컴파일 문제를 방지하기 위한 보호 로직을 포함합니다.
app : llama 통합 실행 파일 도입 ( #23296 ) app : llama 통합 실행 파일 도입 Signed-off-by: Adrien
Hugging Face 프로젝트에서 Llama 모델을 실행하기 위한 통합 실행 파일 도입을 위한 변경 사항이 반영되었습니다. 서버용 serve 기능이 추가되었으며, macOS, Linux, Android, Windows, openEuler 등 다양한 운영체제와 하드웨어 가속(CUDA, Vulkan, ROCm, OpenVINO 등)을 지원합니다.
llama : MTP 정리 ( #23269 ) lama : 부분 롤백 (partial rollback)이 있는 순환 메모리 (recurrent
llama.cpp 프로젝트의 MTP(Multi-Token Prediction) 및 투기적 디코딩(Speculative Decoding) 관련 기술적 업데이트 사항을 정리한 내용입니다. 순환 메모리(Recurrent Memory)의 부분 롤백 기능 개선, ngram 및 초안(draft) 설정 최적화, 그리고 다양한 운영체제 및 하드웨어 가속을 위한 빌드 지원 범위 확대를 포함합니다.
hexagon: TRI 연산 (op) 지원 추가 ( #22822 ) Hexagon: ggml hexagon HTP 연산 (ops) 및 컨텍스트에
Hexagon HTP 연산 지원을 위해 ggml에 TRI HVX 커널이 추가되었습니다. 이번 업데이트에는 TRI 연산에 대한 PR 리뷰 반영과 함께 코드 포맷팅 및 중복 연산 제거 등 다양한 최적화 작업이 포함되었습니다.
llama.cpp b9221 릴리스: ggml-hexagon PAD 연산 HVX 커널 추가 및 플랫폼 지원 업데이트
llama.cpp b9221 릴리스에서는 Hexagon HTP 백엔드를 위한 HVX 벡터화 커널 기반의 PAD 연산 지원이 추가되었습니다. 이를 통해 제로 패딩 및 순환 패딩을 4개 텐서 차원 전체에서 지원하며, macOS, Linux, Android, Windows, openEuler 등 다양한 플랫폼에 대한 지원 업데이트가 포함되었습니다.
ggml-vulkan/CMakeLists: SPIRV-Headers 확인 로직 추가 ( #22009 ) ci/run: macOS Vulkan C
본 변경 사항은 ggml-vulkan 프로젝트의 CMakeLists에 SPIRV-Headers를 검색하는 로직을 추가하여 빌드 및 구성 안정성을 높이는 것을 목표로 합니다. 특히 CI 환경에서 파일들이 예상치 못한 경로(vulkan/)에 위치할 수 있는 문제를 해결하고, 이를 통해 필요한 SPIRV-Headers를 성공적으로 찾을 수 있도록 수정되었습니다. 이 변경은 macOS, Linux, Android, Windows 등 광범위한 플랫폼과 다양한 하드웨어/API 조합(CUDA, Vulkan, SYCL, ROCm 등)에서 프로젝트의 빌드 및 구성 오류를 방지하는 데 기여합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.