r/LocalLLaMA분석2026. 07. 06. 06:20

Qualcomm, Windows 노트북에서 LLM을 실행하기 위한 GenieX 출시

요약

Qualcomm이 Windows 노트북 환경에서 LLM을 효율적으로 실행할 수 있도록 돕는 GenieX를 출시했습니다. 이 SDK를 통해 Gemma 4 및 Qwen 모델 등을 GPU와 NPU에서 구동하여 최적화된 성능을 얻을 수 있습니다.

핵심 포인트

Qualcomm의 새로운 LLM 실행 SDK인 GenieX 출시
Gemma 4 26B 모델 실행 시 20 tok/s의 속도 달성
GPU 및 NPU를 활용한 온디바이스 AI 성능 최적화 지원
llama.cpp를 통한 GGUF 모델의 CPU/GPU/NPU 실행 지원

Qualcomm은 모든 주요 칩 제조사의 뒤에 있었기에 SDK (Software Development Kit) 측면에서는 추격하는 입장에 있습니다.
https://aihub.qualcomm.com/geniex
GPU 또는 NPU에서 Gemma 4 26B A4B를 실행했을 때 첫 번째 토큰 생성까지 0.5초, 20 tok/s의 속도를 얻을 수 있었습니다.
Qwen 3.6 27B MTP를 GPU에서 실행했을 때는 10 tok/s가 나왔습니다.
llama.cpp를 사용하려면, 아무 Q4_0 GGUF 모델이나 가져오면 CPU, GPU, NPU에서 실행됩니다.
submitted by /u/DerpSenpai
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Insights

Qualcomm, Windows 노트북에서 LLM을 실행하기 위한 GenieX 출시

요약

핵심 포인트

댓글

트럼프 행정부가 AI를 위한 FDA 도입을 거부함에 따라 AI 기업들이 모델 리스크를 떠안게 되다

3가지 모델을 AI 에이전트 품질 검사기로 테스트해 보았습니다: 모델이 강력할수록 더 유효한 작업을 더 많이 거부합니다

Andrej Karpathy가 수년 만에 선보인 최고의 세컨드 브레인(Second Brain) 아이디어