MTPLX V1: MLX MTP 모델 실행 및 생성을 위한 Swift 앱 (Qwen 3.6 27B에서 2배 빠른 TPS)

여러분 안녕하세요!

약 한 달 전, 저는 MTPLX V0.1을 통해 MLX에 네이티브 MTP를 도입했습니다.
CLI 버전은 Qwen 3.6 27B의 속도를 28tps에서 63tps로 끌어올렸지만, 기능이 상당히 빈약했습니다.
그래서 이 서브레딧(sub)에서 보내주신 수많은 훌륭한 피드백을 바탕으로 완전히 새로 만들었습니다.
MTPLX V1은 이제 전체 엔진을 번들로 포함하고 모델을 완전히 온디바이스(on-device)에서 실행하는 네이티브 Mac 앱(Swift)입니다. 하나의 DMG 파일, 약 55MB에 모든 것이 포함되어 있습니다. 기존의 CLI 기능도 여전히 그대로 유지됩니다.
https://reddit.com/link/1u3iikl/video/4q72098mgr6h1/player

실제로 무엇이 새로워졌나요?

Forge: 제가 가장 기대하고 있는 기능입니다. v0.1 게시물에서 가장 큰 불만 사항은 거의 모든 MLX 양자화(quant) 모델이 MTP 헤드(heads)를 포함하여 출시되지 않아, 제가 만든 모델 외에는 실행할 수 있는 것이 거의 없다는 점이었습니다. Forge는 이 문제를 해결합니다: Hugging Face 링크를 붙여넣으면, MTP 헤드가 연결된 MLX 모델로 변환한 다음, 실제로 적용하기 전에 사용자의 기기에서 실제 속도 향상을 측정해 줍니다.

원클릭 서빙(One-click serving): OpenCode, Hermes & Pi 지원이 내장되어 사용하기 쉬우며, 모든 오픈 API(open api) 또는 Anthropic API 엔드포인트도 지원합니다.

내장 채팅 + 라이브 대시보드: 성능이 뛰어난 네이티브 스트리밍 채팅과 더불어, 디코드 게이지(decode gauge), 깊이별 수락률(acceptance-by-depth), 검증 폭포(verify waterfall)를 실시간으로 보여주는 대시보드가 포함되어 있어, 투기적 루프(speculative loop)가 실제로 어떻게 작동하는지 직접 관찰할 수 있습니다.

내장 벤치마킹: 재미를 위해 모델 간 정확도를 확인할 수 있는 AIME 2026이 앱에 내장되어 있습니다. 클릭 한 번으로 실행 가능합니다.

더 작은 Mac 지원: 솔직히 v0.1은 약간 M5 Max를 과시하는 느낌이었습니다. v1에서는 Qwen 3.5 9B와 Gemma 4(및 Qwen 3.6 MoE)를 추가하여, 구형 또는 사양이 낮은 기기를 사용하는 사람들도 이용할 수 있도록 했습니다.

엔진 업그레이드: RAM+SSD KV 캐시(KV cache)를 적용하여 세션이 재시작 후에도 유지되며 거의 즉시 복구됩니다. KV 캐시 양자화(quantisation), 스마트 팬 모드(요청 시에만 작동), 연속 배칭(continuous batching, AR 전용), 버그 수정 등이 포함되었습니다.

핵심 로직은 변경되지 않았으며, 어떤 온도(temperature) 설정에서도 수학적으로 정확합니다. 잔차 보정(residual correction)이 포함된 Leviathan–Chen 거부 샘플링(rejection sampling)을 사용하며, 실제 온도에서 일반적인 자기회귀(autoregressive) 방식과 비교했을 때 로짓 차이(logits diff) = 0.0임을 검증했습니다. MTP 없이 얻을 수 있는 것과 동일한 출력을 얻으면서, 속도는 2배 이상 빠릅니다.

다른 Apple Silicon 전용 Speculative Decoding (spec-decode) 프로젝트들과 달리 Greedy decoding 방식에만 국한되지 않습니다. 여전히 오픈 소스이며, 여전히 1인 개발되었습니다. Apple Silicon 전용입니다 (macOS 14+).

사이트: https://mtplx.com GitHub: https://github.com/youssofal/MTPLX

피드백, 버그 리포트 및 PR (Pull Request)을 환영합니다. 그리고 만약 MLX 양자화 (quants) 모델을 배포하신다면 MTP 헤드 (MTP heads)를 포함해 주세요 (또는 단순히 Forge를 통해 리포지토리를 실행해 주세요). MTP 헤드가 포함된 모델이 더 많이 공유될수록, 모두에게 더 좋아질 것입니다. v0.1 버전에서 저를 독려해 주신 이곳의 모든 분들께 다시 한번 감사드립니다!

제출자: /u/YoussofAl
[링크] [댓글]

Insights

MTPLX V1: MLX MTP 모델 실행 및 생성을 위한 Swift 앱 (Qwen 3.6 27B에서 2배 빠른 TPS)

요약

핵심 포인트

댓글

Olix, 33억 달러 기업 가치로 유럽 최대 규모의 칩 투자 유치

TotalEnergies, Shell 및 KKR과 유럽 재생 에너지 계약 체결

KKR, 역대 최대 규모 인프라 펀드 조성 위해 192억 달러 조달

파일럿 에이전트(Pilot Agent)란 무엇인가? 브라우저, 기계, 워크플로우를 제어하는 AI 에이전트 클래스

Olix, 33억 달러 기업 가치로 유럽 최대 규모의 칩 투자 유치

TotalEnergies, Shell 및 KKR과 유럽 재생 에너지 계약 체결

KKR, 역대 최대 규모 인프라 펀드 조성 위해 192억 달러 조달

파일럿 에이전트(Pilot Agent)란 무엇인가? 브라우저, 기계, 워크플로우를 제어하는 AI 에이전트 클래스