본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

llama.cpp Releases 143필터 해제

llama.cpp헤드라인

server: 스트리밍 엔드포인트에 "X-Accel-Buffering": "no" 헤더 추가 ([#24774](https://github.com

llama.cpp의 서버 엔드포인트에 'X-Accel-Buffering: no' 헤더를 추가하여 Nginx 리버스 프록시의 응답 버퍼링 문제를 해결했습니다. 이를 통해 스트리밍 응답이 끊기지 않고 원활하게 전달되도록 개선되었습니다.

2시간 전0
llama.cpp헤드라인

metal : rope_back 연산자 구현 ([#24725](https://github.com/ggml-org/llama.cpp/pull/24

llama.cpp 프로젝트에서 Metal API를 위한 rope_back 연산자를 구현했습니다. 기존 RoPE 커널을 함수 상수를 활용해 재사용함으로써 순방향과 역방향 회전을 전환할 수 있게 하여 코드 중복을 방지했습니다.

1일 전0
llama.cpp헤드라인

metal : concat 연산자에 대한 f16 및 bf16 지원 추가 ([#24724](https://github.com/ggml-org/ll

llama.cpp의 Metal 백엔드에서 concat 연산자가 f16 및 bf16 텐서 타입을 지원하도록 업데이트되었습니다. 이를 통해 Apple Silicon 환경에서 다양한 데이터 타입에 대한 연산 효율성을 높였습니다.

1일 전0
llama.cpp헤드라인

sycl: 선택적 USM 시스템 할당 추가 ([#22526](https://github.com/ggml-org/llama.cpp/pull/225

llama.cpp의 SYCL 백엔드에 선택적 USM(Unified Shared Memory) 시스템 할당 기능이 추가되었습니다. 이 기능을 통해 대규모 GPU 버퍼를 시스템 메모리에서 할당하여 VRAM 용량 한계를 극복할 수 있습니다.

1일 전0
llama.cpp헤드라인

llama-graph에서 NVFP4 엣지 케이스(edge-cases) 수정 및 제한 ([#24331](https://github.com/ggml

llama.cpp의 llama-graph에서 NVFP4 관련 엣지 케이스를 수정하고 build_ffn 지원 조합을 제한하는 업데이트가 진행되었습니다. LoRA의 역양자화 및 편향 추가 시점을 조정하여 연산 정확도를 개선했습니다.

2일 전0
llama.cpp헤드라인

sycl: reordered Q4_K/Q5_K/Q6_K MoE MUL_MAT_ID 지원 ([#24452](https://github.com/gg

llama.cpp의 SYCL 백엔드에서 Q4_K, Q5_K, Q6_K 양자화 방식에 대한 MoE MUL_MAT_ID 지원이 확장되었습니다. 이를 통해 전문가 텐서 처리를 위한 재정렬된 가중치 지원이 강화되었습니다.

2일 전0
llama.cpp헤드라인

chat: peg-native 도구 호출 파싱 강화 ([#24329](https://github.com/ggml-org/llama.cpp/pul

llama.cpp의 PEG-native 도구 호출 파싱 기능이 강화되었습니다. OpenAI 스타일의 도구 호출 형식을 지원하며, 파싱 실패 시 명확한 에러 메시지와 로그를 제공하여 디버깅을 용이하게 합니다.

3일 전0
llama.cpp헤드라인

cohere2-MoE 아키텍처 지원 추가 ([#24260](https://github.com/ggml-org/llama.cpp/pull/2426

llama.cpp 프로젝트에서 cohere2-MoE 아키텍처 지원을 추가하는 업데이트가 진행되었습니다. MoE 구조를 위한 텐서 수정, 토크나이저 업데이트, 전문가 결합 방식 변경 등 다양한 기술적 최적화가 포함되었습니다.

3일 전0
llama.cpp헤드라인

server: 정적 자산 (static assets) 처리 정리 ([#24550](https://github.com/ggml-org/llama.

llama.cpp 프로젝트의 서버 정적 자산(static assets) 처리 방식이 개선되었습니다. 파일 이름 처리 단순화 및 UI 자산의 아카이브 번들링 작업이 포함되었습니다.

4일 전0
llama.cpp헤드라인

vulkan: 비연속적 (non-contig) unary/glu 연산 지원 ([#24215](https://github.com/ggml-org/

llama.cpp의 Vulkan 백엔드에서 비연속적(non-contiguous) unary/glu 연산을 지원하도록 업데이트되었습니다. 인덱스 계산 최적화를 위해 fastdiv를 도입하고, 연산 코드의 구조를 개선하여 효율성을 높였습니다.

4일 전0
llama.cpp헤드라인

jinja : 첫 번째 인자를 빈 값으로 split 및 replace 하는 문제 수정 ([#24574](https://github.com/ggm

llama.cpp 프로젝트의 jinja 템플릿 처리 관련 버그 수정 사항을 담고 있습니다. 첫 번째 인자가 빈 값일 때 split 및 replace 동작이 비정상적으로 작동하던 문제를 해결하고 예약 크기를 수정했습니다.

4일 전0
llama.cpp헤드라인

chat: LFM2/LFM2.5가 json_schema를 무시하는 문제 수정 ([#24377](https://github.com/ggml-org

llama.cpp에서 LFM2/LFM2.5 모델이 json_schema를 무시하던 버그를 수정했습니다. 기존에는 템플릿 핸들러가 도구 호출용 문법만 생성하여 response_format 설정을 반영하지 못했으나, 이번 업데이트로 해결되었습니다.

4일 전0
llama.cpp헤드라인

MTP를 위한 패딩(padding) 및 다중 D2D 복사 제거 ([#24086](https://github.com/ggml-org/llama.c

llama.cpp 프로젝트에서 MTP(Multi-Token Prediction)를 위한 패딩 제거 및 D2D 복사 최적화 작업이 진행되었습니다. ggml_gated_delta_net의 연산 파라미터 수정과 단일 strided ggml_cpy를 통한 캐시 복사 효율화를 포함합니다.

4일 전0
llama.cpp헤드라인

[SYCL] SYCL 백엔드(backend)를 위한 CI 빌드 및 릴리스 수정 ([#24387](https://github.com/ggml-or

llama.cpp 프로젝트의 SYCL 백엔드를 위한 CI 빌드 및 릴리스 프로세스를 개선했습니다. GitHub 캐시 관리, ccache 최적화, OS별 빌드 설정 수정을 통해 빌드 안정성을 높였습니다.

4일 전0
llama.cpp헤드라인

spec: EAGLE3 투기적 디코딩 (speculative decoding) 지원 추가 ([#18039](https://github.com/g

llama.cpp 프로젝트에 EAGLE3 투기적 디코딩(speculative decoding) 지원이 추가되었습니다. 이번 업데이트를 통해 Gemma4 모델에 대한 EAGLE3 지원과 함께 다양한 파라미터 버그 수정 및 아키텍처 최적화가 이루어졌습니다.

4일 전0
llama.cpp헤드라인

ggml: cuda 백엔드에서 스칼라 타입(scalar types)에 대한 연결(concat) 지원 ([#24011](https://github

ggml 라이브러리의 CUDA 백엔드에서 스칼라 타입에 대한 연결(concat) 기능을 지원합니다. 또한 concat.cu 업데이트와 Metal CI 이슈 수정을 포함한 llama.cpp의 최신 빌드를 제공합니다.

4일 전0
llama.cpp헤드라인

b9585 버전 릴리스 노트

llama.cpp의 b9585 버전 릴리스 노트로, 다양한 플랫폼(macOS, Linux, Android) 및 아키텍처에 대한 빌드 바이너리를 제공합니다. 주요 업데이트로는 deepstack 미사용 시 임베딩 스케일 적용 수정과 테스트에서 존재하지 않는 모델 제거 등이 포함되었습니다.

6월 9일0
llama.cpp헤드라인

vulkan: 행렬-행렬 곱셈 및 Flash Attention에 `v_dot2_f32_f16` 지원 추가 ([#24123](https://git

llama.cpp 프로젝트가 Vulkan API를 활용하여 행렬-행렬 곱셈 및 Flash Attention 기능에 `v_dot2_f32_f16` 지원을 추가했습니다. 이는 다양한 플랫폼(macOS, Linux, Android 등)에서 최적화된 성능을 제공하며, 여러 아키텍처와 백엔드(CPU, GPU, NPU)를 포괄합니다.

6월 9일0
llama.cpp헤드라인

ggml: GGML_OP_COL2IM_1D 추가 및 관련 개선 사항

llama.cpp의 ggml 라이브러리에 1D 전치 합성곱(ConvTranspose1d)을 처리하는 GGML_OP_COL2IM_1D 연산이 추가되었습니다. 이 커널은 오버랩-덧셈 방식을 사용하여 계산 효율성을 높였으며, CPU 백엔드에서 F32, F16, BF16 등 다양한 정밀도를 지원합니다. 테스트 케이스와 내부 검증 로직도 대폭 강화되어 안정성이 향상되었습니다.

6월 9일0
llama.cpp헤드라인

b9577 릴리스

llama.cpp의 b9577 릴리스가 발표되었으며, 주요 업데이트 사항으로 `--log-prompts-dir` 플래그를 추가하여 프롬프트 기록 기능을 제공합니다. 이 기능은 각 프롬프트를 지정된 디렉토리에 별도의 텍스트 파일로 저장할 수 있게 합니다.

6월 9일0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.