MTPLX V1: MLX MTP 모델 실행 및 생성을 위한 Swift 앱 (Qwen 3.6 27B에서 2배 빠른 TPS)
요약
MLX 기반의 MTP(Multi-Token Prediction) 모델을 온디바이스로 실행할 수 있는 Swift 네이티브 Mac 앱 MTPLX V1이 출시되었습니다. Qwen 3.6 27B 모델 기준 기존 대비 2배 이상의 TPS 향상을 제공하며, 모델 변환 도구인 Forge와 실시간 성능 대시보드를 포함합니다.
핵심 포인트
- MTP 기술 적용으로 Qwen 3.6 27B 모델의 속도를 28tps에서 63tps로 향상
- Forge 기능을 통해 Hugging Face 모델을 MTP 헤드가 포함된 MLX 모델로 자동 변환
- 실시간 디코드 게이지 및 검증 폭포를 확인할 수 있는 라이브 대시보드 제공
- RAM+SSD KV 캐시 적용으로 세션 재시작 시 즉각적인 복구 가능
- Apple Silicon 전용이며 macOS 14 이상에서 작동하는 오픈 소스 프로젝트
여러분 안녕하세요!
약 한 달 전, 저는 MTPLX V0.1을 통해 MLX에 네이티브 MTP를 도입했습니다.
CLI 버전은 Qwen 3.6 27B의 속도를 28tps에서 63tps로 끌어올렸지만, 기능이 상당히 빈약했습니다.
그래서 이 서브레딧(sub)에서 보내주신 수많은 훌륭한 피드백을 바탕으로 완전히 새로 만들었습니다.
MTPLX V1은 이제 전체 엔진을 번들로 포함하고 모델을 완전히 온디바이스(on-device)에서 실행하는 네이티브 Mac 앱(Swift)입니다. 하나의 DMG 파일, 약 55MB에 모든 것이 포함되어 있습니다. 기존의 CLI 기능도 여전히 그대로 유지됩니다.
https://reddit.com/link/1u3iikl/video/4q72098mgr6h1/player
실제로 무엇이 새로워졌나요?
Forge: 제가 가장 기대하고 있는 기능입니다. v0.1 게시물에서 가장 큰 불만 사항은 거의 모든 MLX 양자화(quant) 모델이 MTP 헤드(heads)를 포함하여 출시되지 않아, 제가 만든 모델 외에는 실행할 수 있는 것이 거의 없다는 점이었습니다. Forge는 이 문제를 해결합니다: Hugging Face 링크를 붙여넣으면, MTP 헤드가 연결된 MLX 모델로 변환한 다음, 실제로 적용하기 전에 사용자의 기기에서 실제 속도 향상을 측정해 줍니다.
원클릭 서빙(One-click serving): OpenCode, Hermes & Pi 지원이 내장되어 사용하기 쉬우며, 모든 오픈 API(open api) 또는 Anthropic API 엔드포인트도 지원합니다.
내장 채팅 + 라이브 대시보드: 성능이 뛰어난 네이티브 스트리밍 채팅과 더불어, 디코드 게이지(decode gauge), 깊이별 수락률(acceptance-by-depth), 검증 폭포(verify waterfall)를 실시간으로 보여주는 대시보드가 포함되어 있어, 투기적 루프(speculative loop)가 실제로 어떻게 작동하는지 직접 관찰할 수 있습니다.
내장 벤치마킹: 재미를 위해 모델 간 정확도를 확인할 수 있는 AIME 2026이 앱에 내장되어 있습니다. 클릭 한 번으로 실행 가능합니다.
더 작은 Mac 지원: 솔직히 v0.1은 약간 M5 Max를 과시하는 느낌이었습니다. v1에서는 Qwen 3.5 9B와 Gemma 4(및 Qwen 3.6 MoE)를 추가하여, 구형 또는 사양이 낮은 기기를 사용하는 사람들도 이용할 수 있도록 했습니다.
엔진 업그레이드: RAM+SSD KV 캐시(KV cache)를 적용하여 세션이 재시작 후에도 유지되며 거의 즉시 복구됩니다. KV 캐시 양자화(quantisation), 스마트 팬 모드(요청 시에만 작동), 연속 배칭(continuous batching, AR 전용), 버그 수정 등이 포함되었습니다.
핵심 로직은 변경되지 않았으며, 어떤 온도(temperature) 설정에서도 수학적으로 정확합니다. 잔차 보정(residual correction)이 포함된 Leviathan–Chen 거부 샘플링(rejection sampling)을 사용하며, 실제 온도에서 일반적인 자기회귀(autoregressive) 방식과 비교했을 때 로짓 차이(logits diff) = 0.0임을 검증했습니다. MTP 없이 얻을 수 있는 것과 동일한 출력을 얻으면서, 속도는 2배 이상 빠릅니다.
다른 Apple Silicon 전용 Speculative Decoding (spec-decode) 프로젝트들과 달리 Greedy decoding 방식에만 국한되지 않습니다. 여전히 오픈 소스이며, 여전히 1인 개발되었습니다. Apple Silicon 전용입니다 (macOS 14+).
사이트: https://mtplx.com GitHub: https://github.com/youssofal/MTPLX
피드백, 버그 리포트 및 PR (Pull Request)을 환영합니다. 그리고 만약 MLX 양자화 (quants) 모델을 배포하신다면 MTP 헤드 (MTP heads)를 포함해 주세요 (또는 단순히 Forge를 통해 리포지토리를 실행해 주세요). MTP 헤드가 포함된 모델이 더 많이 공유될수록, 모두에게 더 좋아질 것입니다. v0.1 버전에서 저를 독려해 주신 이곳의 모든 분들께 다시 한번 감사드립니다!
제출자: /u/YoussofAl
[링크] [댓글]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기