로컬 LLM 최종 추천 (M5 Pro Max 128GB 실측) 1순위: Qwen 3.6 35B-A3B (4bit or 6bit)

요약

본 기사는 M5 Pro Max 128GB 환경에서 로컬 LLM을 테스트하고 최적의 모델로 Qwen 3.6 35B-A3B를 추천합니다. 이 모델은 MLX 프레임워크 사용 시 4bit 양자화에서 초당 70~85 토큰 이상의 빠른 속도를 보여주며, 특히 MoE 구조 덕분에 에이전트 코딩 및 도구 사용 능력에서 뛰어난 성능을 발휘합니다.

핵심 포인트

M5 Pro Max 128GB 환경에 최적화된 로컬 LLM으로 Qwen 3.6 35B-A3B가 추천됨.
MLX 프레임워크를 사용한 4bit 양자화 시, 초당 70~85 토큰 이상의 매우 빠른 추론 속도를 달성함.
Qwen 3.6 모델은 MoE 구조 덕분에 에이전트 코딩 및 도구 활용(tool use)에 최적의 성능을 보임.
256K라는 긴 컨텍스트 길이에서도 높은 처리 속도를 유지하여 개발 학습 및 AI 도구 제작에 적합함.

속도: MLX 4bit → 70~~85+ tok/s, 6bit → 55~~70 tok/s (MoE 구조 덕에 압도적 1위)
장점: Agentic coding·tool use 최강, 긴 컨텍스트(256K)도 빠름, 개발 공부+ AI 도구 제작에 완벽.
단점: 창의적

AI 자동 생성 콘텐츠

원문 바로가기

로컬 LLM 최종 추천 (M5 Pro Max 128GB 실측) 1순위: Qwen 3.6 35B-A3B (4bit or 6bit)

요약

핵심 포인트

댓글