X요약2026. 05. 31. 01:50

mlx-vlm 프로젝트의 Step 3.7 Flash 모델 통합 및 성능 업데이트

요약

mlx-vlm 프로젝트에 Step 3.7 Flash 모델이 통합되어 Apple Silicon 환경에서 강력한 로컬 멀티모달 성능을 제공합니다. 4-bit 양자화를 통해 Mac Studio에서 초당 53 토큰 이상의 빠른 속도와 32K 컨텍스트를 지원합니다.

오늘 mlx-vlm 프로젝트의 Ivan Fioravanti가 올린 업데이트를 보게 되었습니다.

Step 3.7 Flash 모델이 공식적으로 통합되었습니다.

MLX로 변환한 후, 시각적 이해 (Visual Understanding)와 텍스트 생성 (Text Generation)이 모두 완벽하게 작동합니다.

이 모델은 속도가 굉장히 빠릅니다.

4-bit 양자화 (Quantized) 버전은 128GB Apple Silicon 기기에서 32K 컨텍스트 (Context)를 지원할 수 있습니다.

그는 Mac Studio에서 직접 벤치마크를 실행하여 초당 53 토큰 (tokens/s) 이상의 생성 속도를 달성했습니다.

스크린샷을 찍어 분석하게 하면, 모델이 구조적 정보와 핵심 요소들을 빠르고 정확하게 추출해냅니다.

우리는 과거에 고품질의 시각-언어 (Vision-Language) 작업이 반드시 클라우드에 의존해야 한다고 생각했습니다.

이제는 이러한 능력을 개인용 Mac에 진정으로 담아낼 수 있게 되었습니다.

개인정보 보호 (Privacy), 속도, 추가 비용 제로 — 이 모든 것이 한 번에 해결됩니다.

로컬 멀티모달 (Local Multimodal) AI가 또 한 단계 진보하여, 진정으로 일상적인 프로젝트에 안착했습니다.

AI 자동 생성 콘텐츠