이제 Apple Silicon Mac에서 EXL3 양자화 모델을 변환할 수 있습니다
요약
Apple Silicon Mac에서 EXL3 양자화 모델을 실행, 추론 및 변환할 수 있게 되었습니다. 기존 CUDA 환경의 고가 GPU가 필요했던 작업이 64GB 이상의 메모리를 갖춘 Mac에서도 가능해져 로컬 LLM 접근성이 높아졌습니다.
핵심 포인트
- Apple Silicon에서 EXL3 양자화 모델 변환 및 추론 지원
- MLX 양자화 대비 가중치당 약 0.5비트 우수한 품질 제공
- 고가의 RTX GPU 없이도 고충실도 양자화 모델 활용 가능
- MiniCPM5 및 Qwen3.6-27B 모델 테스트 완료
안녕하세요, 업데이트 소식을 가지고 왔습니다. 하지만 이번에는 로컬 LLM (Local LLM) 분야에서 상당히 큰 뉴스입니다. 보통 EXL3와 같은 고충실도 양자화 (High fidelity quant) 모델에 접근하는 것은 CUDA에 제한되어 있으며, RTX 카드로 96GB-128GB의 메모리가 필요하다고 상상해 보세요. 이들은 매우 특수하고 비쌉니다. 하지만 이제 더 일반적인 기반인 MacOS와 Apple Silicon에서는 64GB 이상의 사양을 꽤 쉽게 찾을 수 있습니다. 저렴하지는 않지만 일반 사람들도 구할 수 있는 수준입니다. 이제 여러분은 EXL3 모델을 실행, 추론 (Inference)하고 심지어 변환 (Convert)할 수도 있습니다. 저는 MiniCPM5와 Qwen3.6-27B로 이를 수행했습니다. MiniCPM5의 평균 KLD (mean KLD)는 RTX 카드로 변환된 모델과 대등한 수준이며, Qwen3.6-27B는 아주 약간 뒤처지는 정도입니다.
만약 EXL3에 대해 모르신다면, 이는 turboderp와 동료들이 만든 훌륭한 작업물입니다. 소비자용 기기에서 최고의 양자화 품질 대비 가중치 (Quant quality-to-weight)를 보여줍니다. 일반적으로 MLX 양자화 (MLX quant)보다 가중치당 약 0.5비트 정도 더 우수합니다.
https://github.com/beamivalice/PonyExl3 가져가세요 - Apache 2.0
건승을 빌며,
Beam
제출자: /u/Beamsters
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기