본문으로 건너뛰기

© 2026 Molayo

llama.cpp헤드라인2026. 05. 28. 03:26

hexagon: MUL_MAT 및 MUL_MAT_ID에서 Q4_1 지원 추가 ([#23647](https://github.com/ggml-org

요약

llama.cpp의 Hexagon DSP 지원 업데이트를 통해 MUL_MAT 및 MUL_MAT_ID 연산에서 Q4_1 양자화 지원이 추가되었습니다. 이를 통해 ggml-hexagon이 전체 그래프를 점유하여 CPU 부하를 줄이고 효율적인 연산이 가능해졌습니다.

핵심 포인트

  • Hexagon DSP에서 Q4_1 matmul/matvec 지원 추가
  • Q8_1 동적 양자화를 통한 vec_dot 연산 최적화
  • Early wakeup 및 op-batch polling 지원으로 지연 시간 개선
  • ggml-hexagon의 그래프 점유율 확대로 CPU 여유 시간 확보

hexagon: MUL_MAT 및 MUL_MAT_ID에서 Q4_1 지원 추가 (#23647)

  • hex-mm: Q4_1 matmul/matvec 지원 추가, 현재는 hvx 전용

  • hmx-mm: Q4_1 지원 추가

  • hex-mm: vec_dot에서 합계를 계산할 필요가 없도록 Q8_1 동적 양자화 (Dynamic Quantization) 사용

  • hexagon: repack scratch buffer 오버플로 수정

  • hex-mm: Q4_1 repack 버퍼 크기 조정 수정

  • hexagon: mm와 fa의 빌드 순서 변경 (LTO에 도움이 되는 것으로 보임)

  • hex-mm: Q4_1 추가 후 vec_dot 4x1s 추가 및 minor HMX 정리

  • hex-mm: fp16 vec_dot이 2x1로 폴백(fallback)되는 문제 및 잘못된 출력을 유발할 수 있는 다른 문제 수정

  • hexagon: early-wake 부활 및 op-batch 완료를 위한 폴링 (Polling) 지원 추가

Q4_1을 통해 ggml-hexagon은 이제 거의 전체 그래프를 점유하며, 이는 CPU가 더 여유롭게(chilax) 작동할 수 있는 시간을 제공합니다.
이는 좋은 현상입니다! 하지만 순수 벤치마크 실행 시에는 추가적인 지연 시간 (Latency)이 발생합니다.
Early wakeup은 일반적인 실행 시 지연 시간을 어느 정도 회복하는 데 도움을 주며, op-batch polling은 벤치마킹만을 위한 것입니다.


Co-authored-by: Todor Boinovski todorb@qti.qualcomm.com

macOS/iOS:

Linux:

<strong>Linux:</strong>

<strong>Android:</strong>

<strong>Windows:</strong>

<strong>Windows:</strong>

openEuler:

  • DISABLED
  • openEuler x86 (310p)
  • openEuler x86 (910b, ACL Graph)
  • openEuler aarch64 (310p)
  • openEuler aarch64 (910b, ACL Graph)

UI:

AI 자동 생성 콘텐츠

본 콘텐츠는 llama.cpp Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0