Apple Silicon에서 잘 작동하도록 EXL3를 포팅했습니다 - PonyExl3 - Insights | Molayo

안녕하세요 여러분, Beam입니다. oMLX의 채팅 인터페이스를 개편한 후, 제 RTX 4090 머신에서 turboderp의 exllamav3를 가지고 놀다가 '왜 이걸 내 M5/M1 Max에서 실행할 수 없을까?'라는 생각이 들어 직접 만들었습니다. https://github.com/beamivalice/PonyExl3 Exl3를 모르는 분들을 위해 설명하자면, 이는 품질과 RAM 측면에서 사용 가능한 최고의 코덱 중 하나이지만, 이를 위해 연산량을 희생하며 작동을 위해 CUDA에 크게 의존합니다. 이제 이것은 Metal에서 실행됩니다. M5 Max는 Qwen3.6-27B 모델에서 약 600 tok/s의 준수한 prefill(프리필) 속도와 약 17 tok/s의 gen(생성) 속도를 낼 수 있으며, DFlash/MTP를 사용하면 greedy(탐욕적) 모드에서 약 38 tok/s, 일반적인 temperature(온도) 사용 시 약 20-25 tok/s까지 올라갑니다. Qwen3.6-35B-A3B 4.00bpw의 경우 prefill은 최대 2700 tok/s에 달하며, decode(디코딩) 속도는 제 RTX 4090의 약 50/tok을 넘어 Eagle3 greedy 모드에서 68.5 tok/s 및 80 tok/s를 기록했습니다. 그렇다면 품질과 메모리는 얼마나 좋을까요? - deepsweet가 컴파일한 이 차트를 확인해 보세요. 저는 제 결과값을 실행해 보았습니다 (결과는 여전히 리포지토리에 txt 파일로 남아 있습니다). 또한 exllamav3에서 메모리를 몇 GB 차지하던 fp16 warm cache(웜 캐시)를 제거하는 데 성공하여 최대한 가볍게 유지했습니다. https://preview.redd.it/t3z3w078vd7h1.png?width=1200&format=png&auto=webp&s=e2127e9c95ea3a250c98ddcc81ec5dd5027a6370 https://preview.redd.it/avf5ja3avd7h1.png?width=1202&format=png&auto=webp&s=e60712b1f2ab80ac0851569a0ec70b34680babf1 그 후 이 모든 것을 제 omlx에 연결하고 'polarbear picnic'을 생성하도록 시켰더니 - 펑! omlx에서 27B-exl3-4.15bpw로 완벽한 북극곰을 생성했습니다. https://preview.redd.it/g3qruvbzvd7h1.png?width=2750&format=png&auto=webp&s=1fc19170960ef62839ceee503ff6b4df12ec10ef Cheers!

Insights

Apple Silicon에서 잘 작동하도록 EXL3를 포팅했습니다 - PonyExl3

요약

핵심 포인트

댓글

확산 환경(Diffusion Environment) 내 다중 팔 밴딧(Multi-Armed Bandits) 문제에 대한 정책 경사(Policy

AI와 1996년형 Ford Taurus...

Parlor v2: M3 Pro에서 실행되는 최선의 노력으로 구현된 완전 로컬 GPT-Live 클론

GitHub - sqliteai/waste: NVMe에서 활성화된 가중치를 직접 스트리밍하여 가용 RAM을 초과하는 2.78조 파라미터

확산 환경(Diffusion Environment) 내 다중 팔 밴딧(Multi-Armed Bandits) 문제에 대한 정책 경사(Policy

AI와 1996년형 Ford Taurus...

Parlor v2: M3 Pro에서 실행되는 최선의 노력으로 구현된 완전 로컬 GPT-Live 클론

GitHub - sqliteai/waste: NVMe에서 활성화된 가중치를 직접 스트리밍하여 가용 RAM을 초과하는 2.78조 파라미터