본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

llama.cpp Releases 144필터 해제

llama.cpp헤드라인

server : honor --embd-normalize CLI arg ( #23125 ) --embd-normalize 플래그(flag)가 임

llama-server의 CLI 인자 `--embd-normalize` 플래그가 임베딩 및 디버그 예제에만 등록되어 있어, 서버가 이를 거부하고 기본값(L2)을 사용하던 문제를 해결했습니다. 이 변경 사항은 `LLAMA_EXAMPLE_SERVER`를 업데이트하여 해당 플래그의 예제 세트에 추가하고, 핸들러가 파라미터에서 `embd_normalize` 값을 읽도록 수정함으로써 이루어졌습니다. 요청 본문에 포함된

5월 17일1
llama.cpp헤드라인

llama + spec: MTP 지원 ( #22673 ) spec: MTP 지원 fix batch size rename files cont :

본 기술 기사는 llama와 spec 관련 기능에 대한 대규모 업데이트 내용을 다루고 있습니다. 주요 내용은 MTP(Multi-Turn Prompting) 지원 강화, speculative decoding의 개선을 위한 GDN 중간 상태 저장 및 부분 롤백 기능을 추가한 것입니다. 또한, 다양한 플랫폼과 아키텍처(macOS, Linux, Windows, Android 등)에 대한 광범위한 호환성 및 최적화 작업이 진행되었으며, 여러 백엔드와 프레임워크 전반에 걸쳐 코드 수정 및 기능 개선이 이루어졌습니다.

5월 16일0
llama.cpp헤드라인

ggml-webgpu: NVIDIA 자체 호스팅 CI 활성화 ( #22976 ) webgpu를 위한 nvidia ci 활성화 주소 정밀도 문제

이 기술 기사는 ggml-webgpu 프로젝트의 NVIDIA 자체 호스팅 CI 활성화에 대한 내용을 다루고 있습니다. 주요 작업으로는 주소 정밀도 문제 해결, 배치(placement) 수정, f16 포맷팅 및 명명 규칙 완화 시도 등이 포함됩니다. 또한 macOS, Linux, Android, Windows, openEuler 등 다양한 플랫폼과 아키텍처를 지원하기 위한 광범위한 CI 환경 구성을 보여줍니다.

5월 15일1
llama.cpp헤드라인

HIP: RDNA3 mma FA, 더 빠른 AMD transpose, AMD 튜닝 ( #22880 ) CUDA mma FA 커널에 RDNA3 지

이 기술 기사는 HIP를 사용하여 RDNA3 아키텍처에서 CUDA mma FA 커널을 지원하고 AMD 튜닝을 개선한 내용을 다룹니다. 특히 VKQ(Vector Quantization)의 FP16 누산 작업 시 RDNA3 텐서 코어를 활용하기 위해 타일 크기 조건을 정의했으며, 헤드 크기에 따른 적절한 누산 방식을 적용했습니다. 또한 RDNA3/4 및 CDNA1에 대한 커널 파라미터 튜닝을 통해 성능 개선 사항과 제약 조건(예: 헤드 크기가 128보다 클 때의 성능 한계)을 발견하고 새로운 데이터 레이아웃 항목을 추가했습니다.

5월 15일3
llama.cpp헤드라인

unicode,test: Qwen3.5 non-backtracking tokenizer handler 및 회귀 테스트 (regression te

본 커밋은 Qwen3.5 모델의 유니코드 토크나이저 처리를 강화하고 회귀 테스트를 추가하는 내용을 담고 있습니다. 특히 `src/unicode.cpp`에 Qwen3.5의 [l{l}l}]+ 정규식(문자 + 결합 문자)을 위한 non-backtracking handler를 추가하여, 긴 입력값에서 발생할 수 있는 스택 오버플로를 방지합니다. 또한 악센트 기호 포함 및 후행 공백 제거 등 전반적인 토큰화 처리의 견고성을 높였습니다.

5월 14일3
llama.cpp헤드라인

SYCL: Level Zero 할당을 사용하여 멀티 GPU 시스템 RAM 고갈 문제 수정 ( #21597 ) SYCL: Level Zero 할당

본 기술 기사는 SYCL 백엔드에서 GPU 메모리 할당 방식을 개선하고, 특히 Intel Arc Pro B70과 같은 멀티 GPU 시스템에서 발생했던 시스템 RAM 고갈(OOM) 문제를 해결한 내용을 다룹니다. 기존의 `sycl::malloc_device`는 VRAM 할당을 시스템 RAM에 1:1로 미러링하여 과도한 메모리 소비를 유발했지만, 새로운 `zeMemAllocDevice` 사용은 호스트 스테이징 없이 P2P 경로를 사용하여 시스템 RAM 사용량을 크게 줄였습니다. 또한, 코드의 안정성과 유지보수성을 높이기 위해 try/catch 제거, 공통 헬퍼 함수 통합, 그리고 Level Zero 지원을 위한 컴파일 및 런타임 플래그 추가 등의 리팩토링 작업도 진행되었습니다.

5월 14일1
llama.cpp헤드라인

issue #22974에 대한 수정 사항입니다

이 수정 사항은 issue #22974에 대한 업데이트 내용으로, 중간 결과값을 더하기 전에 float로 캐스팅한 후 최종 결과를 대상 타입으로 캐스팅하여 half+half 연산자의 모호성을 방지하는 것을 목표로 합니다. 이 변경 사항은 macOS/iOS, Linux(다양한 아키텍처 및 API 포함), Android, Windows(CUDA, Vulkan, SYCL 등 다양한 환경 지원), 그리고 openEuler를 포함한 광범위한 플랫폼과 환경에서 적용됩니다.

5월 14일5
llama.cpp헤드라인

server, webui: vLLM API 호환성을 위해 continue_final_message 플래그 허용 ( #23012 ) server,

이 업데이트는 vLLM 및 transformers API의 호환성을 높이기 위해 `continue_final_message` 플래그를 추가합니다. 이 플래그는 특히 `add_generation_prompt`가 false로 설정되었을 때 기존의 prefill_assistant 코드 경로를 트리거하도록 설계되었습니다. WebUI는 '계속(Continue)' 버튼 사용 시 이 플래그와 `add_generation_prompt: false` 조합을 전송하며, 이는 향후 채팅 서비스의 템플릿별 prefill 로직 구현에 기반을 마련합니다.

5월 14일4
llama.cpp헤드라인

hexagon: HVX splat helpers를 통해 스칼라 VTCM 로드 제거 (#22993) hexagon: hvx_vec_repl hel

이 기술 기사는 hexagon 컴파일러 및 관련 라이브러리 업데이트에 대한 내용을 담고 있습니다. 주요 개선 사항으로는 HVX splat helpers를 활용하여 스칼라 VTCM 로드를 제거하고, `hvx_vec_repl` 헬퍼 추가 및 이를 다양한 유스케이스에 적용하는 것이 포함됩니다. 또한 hmx-mm, hmx-fa 등 여러 모듈에서 그룹별 스케일 처리 최적화, 슬로프 로드 최적화, 정렬된 액세스 사용 등의 성능 개선이 이루어졌습니다.

5월 13일2
llama.cpp헤드라인

ggml-zendnn : 작은 배치 크기(small batch sizes)에 대해 CPU 백엔드(backend)로의 적응형 폴백(adaptive

ggml-zendnn 라이브러리에 작은 배치 크기(small batch sizes)에 대한 CPU 백엔드 적응형 폴백 기능이 추가되었습니다. 이 기능을 통해 특정 환경에서 문제가 발생할 경우 자동으로 안정적인 CPU 백엔드로 전환하여 호환성을 높였습니다. 또한, 사용자가 런타임 환경 변수 `GGML_ZENDNN_ADAPTIVE_FALLBACK`을 통해 이 적응형 폴백 동작을 제어할 수 있게 되었습니다.

5월 13일4
llama.cpp헤드라인

server, webui: reasoning models에서의 생성 계속하기(continue generation) 지원 ( #22727 ) se

본 업데이트는 reasoning models에서 생성(generation)을 지속적으로 수행하는 기능을 지원합니다. 구체적으로, assistant prefill로 인해 발생하던 차단 문제를 해결하고, 파서가 다음 스트림 청크를 정확히 라우팅할 수 있도록 thinking tags를 조정했습니다. WebUI에서는 Continue 버튼을 통해 reasoning guard를 해제하고, 부분적인 reasoning 내용을 유지하여 CoT(Chain of Thought)의 연속성을 보장합니다.

5월 13일3
llama.cpp헤드라인

ggml-webgpu: 멀티모달 (multimodal)을 위한 정밀도 문제 해결 ( #22808 ) fix(mixed-types): 정밀도를 위

이 업데이트는 ggml-webgpu 라이브러리에서 멀티모달(multimodal) 기능을 지원하기 위한 정밀도 문제를 해결하는 데 중점을 둡니다. 주요 수정 사항으로는 f32 사용을 위해 공유 메모리 계산 로직 업데이트, GELU 및 관련 함수 수정, flash-attn 경로 수정 등이 포함됩니다. 또한 다양한 운영체제와 아키텍처(macOS, iOS, Linux, Android, Windows 등)에 대한 광범위한 호환성 패치가 이루어졌습니다.

5월 13일4
llama.cpp헤드라인

CUDA provider를 위한 내부 AllReduce 커널 ( #22299 ) ggml-cuda: 텐서 병렬화 (tensor paralleli

본 업데이트는 CUDA provider를 위한 내부 AllReduce 커널을 도입하여, NCCL 없이도 GPU 간의 텐서 병렬화(tensor parallelism)에 필요한 AllReduce 기능을 구현합니다. 이 새로운 internal provider는 단일 단계 CUDA 커널과 파이프라이닝 기법을 사용하여 효율적인 통신을 제공하며, `ggml-cuda` 라이브러리와 `llama-bench` 도구 모두에서 이를 지원하고 있습니다. 또한, 사용자가 NCCL 또는 내부 Provider를 명시적으로 선택할 수 있도록 환경 변수 및 플래그가 추가되었습니다.

5월 13일4
llama.cpp헤드라인

b9115: convert : LoraTorchTensor에 split() 메서드 추가 및 LoRA 컨버터 개선 (#22832)

이 기술 기사는 LoRA(Low-Rank Adaptation) 관련 라이브러리의 개선 사항을 다루고 있습니다. 주요 업데이트 내용은 `LoraTorchTensor` 클래스에 `split()` 메서드를 추가하여 텐서 분할 기능을 강화한 것입니다. 또한, Python 타입 검사 수정, `torch.split` 디스패치 로직 개선, 그리고 다양한 버그 및 리팩토링 작업이 포함되어 전반적인 코드 안정성과 사용 편의성을 높였습니다.

5월 13일2
llama.cpp헤드라인

CUDA: im2col (2D 및 3D)에서 OW > 65535 처리 (#22944)

본 기술 기사는 CUDA 기반의 im2col(2D 및 3D) 구현에서 출력 너비(OW)가 GPU 그리드 크기 제한인 65535를 초과할 때 발생하는 문제를 해결하는 방법을 설명합니다. 특히, 긴 오디오 데이터(예: 11초/16kHz)를 처리하는 Conv1d 인코더의 경우 OW가 이 한계를 넘어 '유효하지 않은 구성 인수' 오류를 발생시켰습니다. 이를 해결하기 위해 `block_nums.y`를 실제 OW와 GPU 최대 그리드 크기(`MAX_GRIDDIM_Y`) 중 작은 값으로 클램프하고, 커널 내부에서 스트라이드를 사용하여 나머지 영역을 루프 처리하도록 수정했습니다.

5월 12일9
llama.cpp헤드라인

CUDA: cuda/iterator를 직접 포함하도록 수정했습니다 (#22936)

이 커밋은 CUDA 라이브러리에서 `cuda/iterator` 헤더 파일을 직접 포함하도록 수정하여, 기존에 `cub/cub.cuh`를 통해 간접적으로 가져오던 방식의 의존성 문제를 해결했습니다. 이 변경을 통해 컴파일 시점에 `cub` 라이브러리가 항상 `cuda/iterator`를 노출하지 못할 수 있는 잠재적인 오류를 방지하고, 코드의 안정성과 모듈성을 높였습니다.

5월 11일6
llama.cpp헤드라인

MiMo-V2.5( #22812 ) 지원하기 위해 Flash Attention MMA / Tiles 추가 mimo-v2.5: d_kq=192,

이 기술 기사는 MiMo-V2.5 모델을 지원하기 위해 Flash Attention MMA/Tiles 기능을 추가하고 관련 최적화를 수행한 내용을 담고 있습니다. 구체적으로 d_kq=192, d_v=128 설정을 위한 flash attention mma/tiles 구현과 (256, 256) fattn 템플릿 적용이 주요 작업입니다. 또한 GQA 처리 수정, 다양한 아키텍처(macOS, Linux, Android, Windows 등) 및 백엔드 환경에 대한 광범위한 테스트와 업데이트가 이루어졌습니다.

5월 9일8
llama.cpp헤드라인

hexagon: add HTP kernel for GGML_OP_GATED_DELTA_NET (#22837) Implement the Gated

이 기술 기사는 GGML_OP_GATED_DELTA_NET 연산을 위해 Hexagon 프로세서에 HTP(High Throughput) 커널을 구현하는 과정을 다룹니다. 이 개선 사항은 프롬프트 처리(PP) 경로와 토큰 생성(TG) 경로 모두에서 최적화된 융합 커널을 제공하며, 특히 TG 경로의 K/Q/게이트 벡터 재로드 오버헤드를 2배 감소시킵니다. 또한 macOS, Linux, Android, Windows 등 광범위한 다양한 아키텍처와 프레임워크(CUDA, Vulkan, ROCm, OpenVINO 등)를 지원하도록 포팅 범위를 확장했습니다.

5월 9일8
llama.cpp헤드라인

cuda: snake 활성화 연산자 병합 (곱셈, 사인, 제곱, 곱셈, 덧셈) (#22667) cuda: snake 활성화 연산자 병합 (곱셈,

본 기술 기사는 CUDA 환경에서 'snake'라는 복잡한 활성화 연산자(y = x + sin(a*x)^2 * inv_b)를 단일 요소별 커널로 병합하는 과정을 다룹니다. 이를 통해 기존의 여러 개별 연산자로 분해되던 구조를 효율적으로 재작성하여, BigVGAN이나 Vocos 같은 오디오 디코더에서 발생하는 계산 부하를 줄이고 성능을 최적화합니다. 이 작업은 F32, F16, BF16 등 다양한 데이터 타입과 여러 플랫폼(CUDA, CPU, macOS, Linux 등)에 걸쳐 테스트 및 적용되었습니다.

5월 8일10
llama.cpp헤드라인

b9070

이 기술 기사는 OpenCL을 사용하여 Adreno GPU에 대한 Q4_0 MoE GEMM 및 CLC 패스 검증(sanity check) 기능을 추가한 업데이트 내용을 담고 있습니다. 주요 개선 사항으로는 코드 가독성 향상을 위한 `#if` 블록 분할, 사용하지 않는 `cl_program` 제거, 그리고 전반적인 공백 수정 등이 포함되었습니다. 이 릴리스는 macOS, iOS, Linux, Android, Windows 등 광범위한 플랫폼과 다양한 백엔드(CUDA, Vulkan, SYCL, ROCm 등)를 지원하며, 여러 아키텍처 및 운영체제 환경에 걸쳐 테스트가 이루어졌음을 보여줍니다.

5월 8일6

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.