본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 14:46

Apple Silicon에서 잘 작동하도록 EXL3를 포팅했습니다 - PonyExl3

요약

CUDA 의존성이 높은 EXL3 코덱을 Apple Silicon의 Metal 환경에서 실행할 수 있도록 포팅한 PonyExl3 프로젝트를 소개합니다. M1/M5 Max 환경에서 높은 추론 속도와 효율적인 메모리 관리를 구현했습니다.

핵심 포인트

  • EXL3 코덱을 Metal 프레임워크로 포팅하여 Apple Silicon 지원
  • M5 Max에서 Qwen 27B 모델 기준 준수한 prefill 및 생성 속도 달성
  • fp16 warm cache 제거를 통해 메모리 사용량 최적화
  • RTX 4090 수준의 성능을 Apple Silicon 환경에서 구현 시도

안녕하세요 여러분, Beam입니다. oMLX의 채팅 인터페이스를 개편한 후, 제 RTX 4090 머신에서 turboderp의 exllamav3를 가지고 놀다가 '왜 이걸 내 M5/M1 Max에서 실행할 수 없을까?'라는 생각이 들어 직접 만들었습니다. https://github.com/beamivalice/PonyExl3 Exl3를 모르는 분들을 위해 설명하자면, 이는 품질과 RAM 측면에서 사용 가능한 최고의 코덱 중 하나이지만, 이를 위해 연산량을 희생하며 작동을 위해 CUDA에 크게 의존합니다. 이제 이것은 Metal에서 실행됩니다. M5 Max는 Qwen3.6-27B 모델에서 약 600 tok/s의 준수한 prefill(프리필) 속도와 약 17 tok/s의 gen(생성) 속도를 낼 수 있으며, DFlash/MTP를 사용하면 greedy(탐욕적) 모드에서 약 38 tok/s, 일반적인 temperature(온도) 사용 시 약 20-25 tok/s까지 올라갑니다. Qwen3.6-35B-A3B 4.00bpw의 경우 prefill은 최대 2700 tok/s에 달하며, decode(디코딩) 속도는 제 RTX 4090의 약 50/tok을 넘어 Eagle3 greedy 모드에서 68.5 tok/s 및 80 tok/s를 기록했습니다. 그렇다면 품질과 메모리는 얼마나 좋을까요? - deepsweet가 컴파일한 이 차트를 확인해 보세요. 저는 제 결과값을 실행해 보았습니다 (결과는 여전히 리포지토리에 txt 파일로 남아 있습니다). 또한 exllamav3에서 메모리를 몇 GB 차지하던 fp16 warm cache(웜 캐시)를 제거하는 데 성공하여 최대한 가볍게 유지했습니다. https://preview.redd.it/t3z3w078vd7h1.png?width=1200&format=png&auto=webp&s=e2127e9c95ea3a250c98ddcc81ec5dd5027a6370 https://preview.redd.it/avf5ja3avd7h1.png?width=1202&format=png&auto=webp&s=e60712b1f2ab80ac0851569a0ec70b34680babf1 그 후 이 모든 것을 제 omlx에 연결하고 'polarbear picnic'을 생성하도록 시켰더니 - 펑! omlx에서 27B-exl3-4.15bpw로 완벽한 북극곰을 생성했습니다. https://preview.redd.it/g3qruvbzvd7h1.png?width=2750&format=png&auto=webp&s=1fc19170960ef62839ceee503ff6b4df12ec10ef Cheers!

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0