친구들아, 어제 공개된 Gemma-4에서 상당한 속도 향상을 제공하는 Gemma-4 MTP를 MLX 지원으로 컴파일해서 Claude Code

친구들아, 어제 공개된 Gemma-4에서 상당한 속도 향상을 제공하는 Gemma-4 MTP를 MLX 지원으로 컴파일해서 Claude Code CLI, Kilocode, 그리고 많은 vibecoding IDE에서 사용하실 수 있도록 API Inference 서버를 준비했어. Gemma-4-31b-8bit-mlx로 한 벤치마크에서 일반 모델에 비해 x1.55 속도를 달성했어. MTP는 여기서 여러 토큰을 미리 예측해서 메인 모델에 검증받는 방식으로 작동해. 토큰들이 수락될수록 지연이 줄고 생산 속도가 올라가. 16.08 tok/s → 24.57 tok/s로 상승했어. 이번 주에 공개할게