hexagon: HVX splat helpers를 통해 스칼라 VTCM 로드 제거 (#22993) hexagon: hvx_vec_repl hel
요약
이 기술 기사는 hexagon 컴파일러 및 관련 라이브러리 업데이트에 대한 내용을 담고 있습니다. 주요 개선 사항으로는 HVX splat helpers를 활용하여 스칼라 VTCM 로드를 제거하고, `hvx_vec_repl` 헬퍼 추가 및 이를 다양한 유스케이스에 적용하는 것이 포함됩니다. 또한 hmx-mm, hmx-fa 등 여러 모듈에서 그룹별 스케일 처리 최적화, 슬로프 로드 최적화, 정렬된 액세스 사용 등의 성능 개선이 이루어졌습니다.
핵심 포인트
- HVX splat helpers를 통해 스칼라 VTCM 로드를 제거하여 효율성을 높였습니다.
- 새로운 `hvx_vec_repl` 헬퍼 추가 및 통합을 통해 벡터 재현(replication) 기능을 강화했습니다.
- hmx-mm, hmx-fa 등에서 그룹별 스케일 처리와 슬로프 로드 최적화가 이루어졌습니다.
- 다양한 플랫폼(macOS, Linux, Android, Windows, openEuler)과 아키텍처/API(CUDA, Vulkan, SYCL, ROCm 등)를 지원하도록 업데이트되었습니다.
hexagon: HVX splat helpers를 통해 스칼라 VTCM 로드 제거 (#22993)
hexagon: hvx_vec_repl helper 추가 및 splat-from-vtcm 유스케이스에 해당 helper 사용
hmx-mm: 그룹별 스케일 (per-group scale) 처리 최적화
hmx-fa: VTCM으로부터의 슬로프 로드 (slope load) 최적화
hmx-fa: hmx-utils에서 가능한 경우 정렬된 액세스 (aligned access) 사용
hexagon: hvx_vec_repl_2x_f16 helper 추가 및 repl helper 통합
Co-authored-by: Max Krasnyansky maxk@qti.qualcomm.com
macOS/iOS: macOS Apple Silicon (arm64)
macOS Apple Silicon (arm64, KleidiAI 활성화)
macOS Intel (x64)
iOS XCFramework
Linux: Ubuntu x64 (CPU)
Ubuntu arm64 (CPU)
Ubuntu s390x (CPU)
Ubuntu x64 (Vulkan)
Ubuntu arm64 (Vulkan)
Ubuntu x64 (ROCm 7.2)
Ubuntu x64 (OpenVINO)
Ubuntu x64 (SYCL FP32)
Ubuntu x64 (SYCL FP16)
Android: Android arm64 (CPU)
Windows: Windows x64 (CPU)
Windows arm64 (CPU)
Windows x64 (CUDA 12) - CUDA 12.4 DLLs
Windows x64 (CUDA 13) - CUDA 13.1 DLLs
Windows x64 (Vulkan)
Windows x64 (SYCL)
Windows x64 (HIP)
openEuler: openEuler x86 (310p)
openEuler x86 (910b, ACL Graph)
openEuler aarch64 (310p)
openEuler aarch64 (910b, ACL Graph)
AI 자동 생성 콘텐츠
본 콘텐츠는 llama.cpp Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기