llama.cpp헤드라인2026. 05. 28. 03:26

hexagon: MUL_MAT 및 MUL_MAT_ID에서 Q4_1 지원 추가 ([#23647](https://github.com/ggml-org

요약

llama.cpp의 Hexagon DSP 지원 업데이트를 통해 MUL_MAT 및 MUL_MAT_ID 연산에서 Q4_1 양자화 지원이 추가되었습니다. 이를 통해 ggml-hexagon이 전체 그래프를 점유하여 CPU 부하를 줄이고 효율적인 연산이 가능해졌습니다.

핵심 포인트

Hexagon DSP에서 Q4_1 matmul/matvec 지원 추가
Q8_1 동적 양자화를 통한 vec_dot 연산 최적화
Early wakeup 및 op-batch polling 지원으로 지연 시간 개선
ggml-hexagon의 그래프 점유율 확대로 CPU 여유 시간 확보

hexagon: MUL_MAT 및 MUL_MAT_ID에서 Q4_1 지원 추가 (#23647)

hex-mm: Q4_1 matmul/matvec 지원 추가, 현재는 hvx 전용
hmx-mm: Q4_1 지원 추가
hex-mm: vec_dot에서 합계를 계산할 필요가 없도록 Q8_1 동적 양자화 (Dynamic Quantization) 사용
hexagon: repack scratch buffer 오버플로 수정
hex-mm: Q4_1 repack 버퍼 크기 조정 수정
hexagon: mm와 fa의 빌드 순서 변경 (LTO에 도움이 되는 것으로 보임)
hex-mm: Q4_1 추가 후 vec_dot 4x1s 추가 및 minor HMX 정리
hex-mm: fp16 vec_dot이 2x1로 폴백(fallback)되는 문제 및 잘못된 출력을 유발할 수 있는 다른 문제 수정
hexagon: early-wake 부활 및 op-batch 완료를 위한 폴링 (Polling) 지원 추가

Q4_1을 통해 ggml-hexagon은 이제 거의 전체 그래프를 점유하며, 이는 CPU가 더 여유롭게(chilax) 작동할 수 있는 시간을 제공합니다.
이는 좋은 현상입니다! 하지만 순수 벤치마크 실행 시에는 추가적인 지연 시간 (Latency)이 발생합니다.
Early wakeup은 일반적인 실행 시 지연 시간을 어느 정도 회복하는 데 도움을 주며, op-batch polling은 벤치마킹만을 위한 것입니다.

Co-authored-by: Todor Boinovski todorb@qti.qualcomm.com

macOS/iOS:

macOS Apple Silicon (arm64)
macOS Apple Silicon (arm64, KleidiAI 활성화) 비활성화됨
macOS Intel (x64)
iOS XCFramework

Linux:

Linux:

Android:

Android arm64 (CPU)

Windows:

openEuler:

DISABLED
openEuler x86 (310p)
openEuler x86 (910b, ACL Graph)
openEuler aarch64 (310p)
openEuler aarch64 (910b, ACL Graph)

UI:

AI 자동 생성 콘텐츠

원문 바로가기

hexagon: MUL_MAT 및 MUL_MAT_ID에서 Q4_1 지원 추가 ([#23647](https://github.com/ggml-org

요약

핵심 포인트

댓글