Qwen3.5 9B 4 bit MLX, 4096 Context Length:
요약
본 기술 기사는 Qwen3.5 9B 모델을 MLX 프레임워크와 4비트 양자화(quantization)를 사용하여 구동했을 때의 성능 테스트 결과를 보여줍니다. 이 테스트는 다양한 Apple Silicon 칩셋(M5 Pro, M5 Max, M3 Ultra)에서 4096 토큰 컨텍스트 길이를 기준으로 측정되었으며, 각 하드웨어 사양에 따라 초당 생성되는 토큰 수(tok/sec)가 크게 달라지는 것을 확인할 수 있습니다.
핵심 포인트
- Qwen3.5 9B 모델을 MLX와 4비트 양자화로 최적화하여 구동할 수 있다.
- 하드웨어 성능에 따라 추론 속도가 크게 차이 나며, M3 Ultra가 가장 높은 처리량(104.63 tok/sec)을 기록했다.
- M5 Max (98.36 tok/sec)와 M3 Ultra (104.63 tok/sec) 모두 매우 빠른 추론 속도를 제공한다.
Qwen3.5 9B 4 bit MLX, 4096 Context Length:
- M5 Pro 24GB 10/16 Core: 52.24 tok/sec
- M5 Max 64GB 18/40 Core: 98.36 tok/sec
- M3 Ultra 512 GB 32/80 Core: 104.63 tok/sec
AI 자동 생성 콘텐츠
본 콘텐츠는 X @alicankiraz0 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기