Qualcomm, Windows 노트북에서 LLM을 실행하기 위한 GenieX 출시
요약
Qualcomm이 Windows 노트북 환경에서 LLM을 효율적으로 실행할 수 있도록 돕는 GenieX를 출시했습니다. 이 SDK를 통해 Gemma 4 및 Qwen 모델 등을 GPU와 NPU에서 구동하여 최적화된 성능을 얻을 수 있습니다.
핵심 포인트
- Qualcomm의 새로운 LLM 실행 SDK인 GenieX 출시
- Gemma 4 26B 모델 실행 시 20 tok/s의 속도 달성
- GPU 및 NPU를 활용한 온디바이스 AI 성능 최적화 지원
- llama.cpp를 통한 GGUF 모델의 CPU/GPU/NPU 실행 지원
Qualcomm은 모든 주요 칩 제조사의 뒤에 있었기에 SDK (Software Development Kit) 측면에서는 추격하는 입장에 있습니다.
https://aihub.qualcomm.com/geniex
GPU 또는 NPU에서 Gemma 4 26B A4B를 실행했을 때 첫 번째 토큰 생성까지 0.5초, 20 tok/s의 속도를 얻을 수 있었습니다.
Qwen 3.6 27B MTP를 GPU에서 실행했을 때는 10 tok/s가 나왔습니다.
llama.cpp를 사용하려면, 아무 Q4_0 GGUF 모델이나 가져오면 CPU, GPU, NPU에서 실행됩니다.
submitted by /u/DerpSenpai
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기