
mlx-vlm 프로젝트의 Step 3.7 Flash 모델 통합 및 성능 업데이트
요약
mlx-vlm 프로젝트에 Step 3.7 Flash 모델이 통합되어 Apple Silicon 환경에서 강력한 로컬 멀티모달 성능을 제공합니다. 4-bit 양자화를 통해 Mac Studio에서 초당 53 토큰 이상의 빠른 속도와 32K 컨텍스트를 지원합니다.
핵심 포인트
- Step 3.7 Flash 모델의 mlx-vlm 공식 통합
- Apple Silicon 기반의 빠른 시각-언어 처리 속도
- 4-bit 양자화로 32K 컨텍스트 지원 가능
- 클라우드 없이 로컬에서 개인정보 보호 및 비용 절감
오늘 mlx-vlm 프로젝트의 Ivan Fioravanti가 올린 업데이트를 보게 되었습니다.
Step 3.7 Flash 모델이 공식적으로 통합되었습니다.
MLX로 변환한 후, 시각적 이해 (Visual Understanding)와 텍스트 생성 (Text Generation)이 모두 완벽하게 작동합니다.
이 모델은 속도가 굉장히 빠릅니다.
4-bit 양자화 (Quantized) 버전은 128GB Apple Silicon 기기에서 32K 컨텍스트 (Context)를 지원할 수 있습니다.
그는 Mac Studio에서 직접 벤치마크를 실행하여 초당 53 토큰 (tokens/s) 이상의 생성 속도를 달성했습니다.
스크린샷을 찍어 분석하게 하면, 모델이 구조적 정보와 핵심 요소들을 빠르고 정확하게 추출해냅니다.
우리는 과거에 고품질의 시각-언어 (Vision-Language) 작업이 반드시 클라우드에 의존해야 한다고 생각했습니다.
이제는 이러한 능력을 개인용 Mac에 진정으로 담아낼 수 있게 되었습니다.
개인정보 보호 (Privacy), 속도, 추가 비용 제로 — 이 모든 것이 한 번에 해결됩니다.
로컬 멀티모달 (Local Multimodal) AI가 또 한 단계 진보하여, 진정으로 일상적인 프로젝트에 안착했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @berryxia (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기