본문으로 건너뛰기

© 2026 Molayo

llama.cpp헤드라인2026. 05. 23. 07:25

SYCL: MoE prefill 처리량 개선 ( #23142 ) k_copy_src1_to_contiguous를 변경하여, 특정 전문가(expe

요약

SYCL에서 MoE prefill 처리량을 개선하기 위한 최적화 작업이 진행되었습니다. 기존의 복잡한 매핑 방식을 카운팅 정렬 기반의 연속적 매핑 방식으로 교체하여 연산 효율을 높였습니다.

핵심 포인트

  • MoE prefill 처리량 개선을 위한 k_copy_src1_to_contiguous 변경
  • 기존 O(n_as * n_routed_rows) 복잡도를 O(n_as + n_routed_rows)로 최적화
  • 카운팅 정렬 기반의 연속적 매핑(contiguous mapping) 도입
  • 다양한 OS 및 하드웨어 환경(Apple Silicon, CUDA, ROCm 등) 지원

SYCL: MoE prefill 처리량 개선 ( #23142 ) k_copy_src1_to_contiguous를 변경하여, 특정 전문가(expert)가 "소유"한 모든 행이 시작과 끝이 알려진 하나의 슬라이스에 포함되도록 미리 계산된 연속적 매핑(contiguous mapping)을 사용합니다. 기존의 O(n_as * n_routed_rows) 방식의 장치를 O(n_as + n_routed_rows) 복잡도를 가진 카운팅 정렬(counting sort) 기반 절차로 교체합니다.

macOS/iOS: macOS Apple Silicon (arm64) macOS Apple Silicon (arm64, KleidiAI 활성화) macOS Intel (x64) iOS XCFramework
Linux: Ubuntu x64 (CPU) Ubuntu arm64 (CPU) Ubuntu s390x (CPU) Ubuntu x64 (Vulkan) Ubuntu arm64 (Vulkan) Ubuntu x64 (ROCm 7.2) Ubuntu x64 (OpenVINO) Ubuntu x64 (SYCL FP32) Ubuntu x64 (SYCL FP16)
Android: Android arm64 (CPU)
Windows: Windows x64 (CPU) Windows arm64 (CPU) Windows x64 (CUDA 12) - CUDA 12.4 DLLs Windows x64 (CUDA 13) - CUDA 13.1 DLLs Windows x64 (Vulkan) Windows x64 (SYCL) Windows x64 (HIP)
openEuler: openEuler x86 (310p) openEuler x86 (910b, ACL Graph) openEuler aarch64 (310p) openEuler aarch64 (910b, ACL Graph)

AI 자동 생성 콘텐츠

본 콘텐츠는 llama.cpp Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0