hexagon: flash attention 재작업 (최적화, 정확도 개선 등) ([#25085](https://github.com/ggml-o

hexagon: flash attention 재작업 (최적화, 정확도 개선 등) (#25085)

hex-mm: mm 양자화 (quant) 작업을 메인 행렬 곱셈 (matmul) 스레드로 통합
hex-mm: 사소한 포맷팅 수정
hex-mm: dma 디스패치(dispatch) 내 is_quant 체크 정리
hex-mm: dst-spad 정렬(alignment) 수정
hex-mm: hvx-mm-kernels 헤더 내 fp 커널 이동
hex-mm: ADD와 융합 (fuse)
hex-fa: ukernel을 별도 헤더로 분리하고 나머지를 통합
hex-fa: kernel-params 계산을 호스트(host)로 이동
hex-fa: 일관성을 위해 vtcm 할당 (alloc) 리팩토링
hex-fa: FA_SELECT 지원 추가
hex-fa: 모든 함수를 포함하도록 트레이싱 (tracing) 계측 업데이트
hex-fa: t/g 회귀를 복구하기 위해 hvx 폴백 (fallback) 임계값 업데이트
hex-fa: 트레이싱 (tracing) 계측 업데이트
hex-fa: 추가 이벤트를 통한 트레이싱 (tracing) 개선
hex-fa: 마스크 처리 최적화 (fastdiv 등)
hex-fa: 마스크 dma 캐싱 개선
hmx-fa: 마스크 캐시 히트 (cache hits)를 최대화하기 위해 루프 순서 변경
hex-fa: 과도한 계측 제거
hex-fa: QKV 준비 트레이싱 (trace) 이벤트 세분화
hmx-fa: 마스크 처리 최적화 추가 진행
hex-fa: 마스크 브로드캐스트 (broadcast)가 일반적인 경우이므로 이에 맞춰 최적화
hex-fa: 가능한 경우 정렬된 로드 (aligned loads) 사용
hex-fa: uint32_t 인덱스를 사용하도록 루프 업데이트
hmx-fa: vtcm 초기화를 q 준비 작업으로 통합
hex-fa: 나머지 hmx 함수들이 uint32_t를 사용하도록 업데이트
hmx-fa: build_d를 메인 소프트맥스 (softmax) 루프에 통합
hmx-fa: kv dma를 더 일찍 시작
hmx-fa: 마스크 dma를 약간 더 일찍 시작
hex-fa: 나눗셈 (divs)을 피하기 위해 작업당 행 (rows) 사전 계산
hmx-fa: f16 및 f32를 위한 fa_o_store 특화
hmx-fa: Sinks에 대한 예비 지원
hmx-fa: 소프트맥스 (softmax) 누산기 (accumulators)를 fp32로 유지
hex-fa: tanh_f16 및 exp2_f16 추가 및 FA에서 사용
hex-fa: hvx 커널에서 fp16 수학 사용
hex-fa: 기울기(slopes) 및 softcap을 위한 비용이 큰 float -> __fp16 캐스트(cast) 방지
hex-fa: 대부분의 vec_exp_f32를 vec_exp2_f16으로 교체
hmx-fa: sinks 업데이트 벡터화 (vectorize)
hex-fa: 사소한 포맷팅 수정
hmx-fa: softcap 루프를 타일 로드(tile load)에 통합
hmx-fa: sinks를 채우기 위해 vectoralias 사용
hex-fa: 중복 체크 제거
hex-fa: 누산기(accumulators)에 fp32를 사용하도록 vtcm 크기 계산 수정
hex-mm: trailing spaces 수정
hmx-fa: 변환 오버플로(conversion overflows)를 방지하기 위해 마스크 초기화 시 -inf를 사용하지 않음
hex-fa: 이제 f16->f32 변환기에서 -inf를 명시적으로 가드(guard)할 필요 없음
hmx-fa: fa sinks 처리 정리
hex-mm: mm이 add와 융합(fused)될 때 src2 stride 처리 수정
hex-fa: LTO(Link Time Optimization) 최적화

macOS/iOS:

macOS Apple Silicon (arm64)
macOS Apple Silicon (arm64, KleidiAI 활성화) 비활성화됨
macOS Intel (x64)
iOS XCFramework

Linux:

Linux:

Android:

Android arm64 (CPU)

Windows:

openEuler:

DISABLED
openEuler x86 (310p)
openEuler x86 (910b, ACL Graph)
openEuler aarch64 (310p)
openEuler aarch64 (910b, ACL Graph)

UI:

Insights

hexagon: flash attention 재작업 (최적화, 정확도 개선 등) ([#25085](https://github.com/ggml-o

요약

핵심 포인트

댓글

RBC, 수요 약화 및 과도한 자본 지출(Capex) 약속으로 Dow 투자의견 하향 조정

【핸즈온】 AgentCore 최신 기능으로 RAG & AI 에이전트 구축 입문!

🔌 Anthropic 공식 지식 노동자를 위한 Claude Cowork 플러그인 컬렉션

RBC, 수요 약화 및 과도한 자본 지출(Capex) 약속으로 Dow 투자의견 하향 조정

【핸즈온】 AgentCore 최신 기능으로 RAG & AI 에이전트 구축 입문!

🔌 Anthropic 공식 지식 노동자를 위한 Claude Cowork 플러그인 컬렉션