Mistral medium 3.5 128B, MLX 4bit, ~70 GB
요약
Mistral medium 3.5 128B 모델을 MLX 4bit 형식으로 변환한 기술 기사입니다. 이 버전은 시각 인코더 포함, 사고 모드(reasoning_effort="high"를 통한 [THINK]...[/THINK] 체인 제공), 도구 호출 기능, 그리고 256K 컨텍스트 창을 지원합니다. 다만, 현재 모델 자체에 문제가 있어 다운로드 및 사용은 권장되지 않으며, 성능 테스트 시 M2 Max에서 약 5 tok/s의 속도를 보였습니다.
핵심 포인트
- Mistral medium 3.5 128B를 MLX 4bit 형식으로 변환하여 최적화했습니다.
- 이 모델은 시각 인코더, 도구 호출 기능, 그리고 256K의 대규모 컨텍스트 창을 지원합니다.
- 성능 테스트 결과, M2 Max 환경에서 초당 약 5 토큰(tok/s)의 추론 속도를 기록했습니다.
- 모델 변환 과정 중 발견된 버그를 수정했으며, 사용 시에는 특정 샘플링 파라미터 설정이 권장됩니다.
이 모델은 현재 완전히 고장 난 상태 같습니다. 다운로드나 사용을 권장하지 않습니다. 문제 해결을 위해 테스트하는 경우를 제외하고는 절대 사용하지 마세요. 이는 변환의 문제가 아니라 모델 자체의 문제입니다.
Mistral medium 3.5 128B 를 MLX 4bit 로 변환했습니다. Eagle 모델은 현재 MLX 에서 추론 (speculative decoding) 을 지원하지 않습니다.
시각 인코더 포함 (완전 BF16 양자화 없음). 사고 모드 작동 (reasoning_effort="high" 은 [THINK]...
[/THINK] 체인 제공), 도구 호출 작동, 256K 컨텍스트.
mlx-vlm 의 mistral3 sanitize 함수에 버그가 있었습니다: 시각 태워와 프로젝터 키에서 모델 접두사를 제거하지 않았습니다. 이로 인해 438 개의 파라미터가 건너뛸 수 있었습니다. 변환 전에 로컬로 수정했습니다. 상세 내용은 HF readme 참조.
96 GB M2 Max 에서 ~5 tok/s 를 얻었습니다. 샘플링을 위해 사고 모드는 temp 0.7 / top_p 0.95 / top_k 20 을, 빠른 응답은 temp 0.0–0.7 / top_p 0.8 을 권장합니다. Mistral 은 반복 패널티를 비활성화하도록 권장하지만, 너무 많은 루프가 발생하므로 가장 좋은 값을 알 수 없습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기