X요약2026. 05. 08. 15:22

Qwen3.5 9B 4 bit MLX, 4096 Context Length:

원문 발행 2026. 05. 08. 07:39원문 언어 영어AI 한국어 번역X @alicankiraz0 (자동 발견) 원문 보기

요약

본 기술 기사는 Qwen3.5 9B 모델을 MLX 프레임워크와 4비트 양자화(quantization)를 사용하여 구동했을 때의 성능 테스트 결과를 보여줍니다. 이 테스트는 다양한 Apple Silicon 칩셋(M5 Pro, M5 Max, M3 Ultra)에서 4096 토큰 컨텍스트 길이를 기준으로 측정되었으며, 각 하드웨어 사양에 따라 초당 생성되는 토큰 수(tok/sec)가 크게 달라지는 것을 확인할 수 있습니다.

핵심 포인트

Qwen3.5 9B 모델을 MLX와 4비트 양자화로 최적화하여 구동할 수 있다.
하드웨어 성능에 따라 추론 속도가 크게 차이 나며, M3 Ultra가 가장 높은 처리량(104.63 tok/sec)을 기록했다.
M5 Max (98.36 tok/sec)와 M3 Ultra (104.63 tok/sec) 모두 매우 빠른 추론 속도를 제공한다.

Qwen3.5 9B 4 bit MLX, 4096 Context Length:

M5 Pro 24GB 10/16 Core: 52.24 tok/sec
M5 Max 64GB 18/40 Core: 98.36 tok/sec
M3 Ultra 512 GB 32/80 Core: 104.63 tok/sec

AI 자동 생성 콘텐츠

원문 바로가기

Insights

Qwen3.5 9B 4 bit MLX, 4096 Context Length:

요약

핵심 포인트

댓글

UsbGpib V3, 새로운 오픈 소스 컨버터인 GPIBee로 하드웨어 설계 업데이트

Skillware 0.4.8 — 모든 에이전트를 위한 오프라인 프롬프트 인젝션 방화벽 (Offline Prompt Injection

누군가가 Coldcard 도둑에게 약 1달러의 비용으로 훔친 비트코인을 세탁해 주겠다는 온체인 제안을 보냈다고 알려짐