Gemma 4 31B MTP vLLM 서버 프로젝트: MTP를 통한 추론 속도 2배 향상

여러분, Gemma 4 31B MTP vLLM 서버 프로젝트를 최근 수정 작업을 통해 vLLM 위에서 MTP (Multi-Token Prediction) 방식으로 동작하여 2배 가까운 추론 (inference) 속도를 제공할 수 있도록 개선했습니다. 🎉

저는 이를 OpenAI 및 Anthropic과 호환되는 API, 인증 (auth), 속도 제한 (rate limit), 상태 확인 (health/ready checks), 메트릭 (metrics) 및 릴리스 위생 (release hygiene) 레이어를 추가한 FastAPI 사이드카 게이트웨이 (sidecar gateway)로 설계했습니다.

MTP를 통해 상당한 차이를 만들어냈습니다:

250 토큰: 62.74 → 136.27 tok/s, 2.17배
500 토큰: 62.96 → 130.71 tok/s, 2.08배
1000 토큰: 62.70 → 132.56 tok/s, 2.11배

유용하게 사용하시길 바랍니다. 링크는 댓글에서 확인하실 수 있습니다.
[IMG:https://pbs.twimg.com/media/HJ4SfQGWQAAcSjs.jpg]

Insights

Gemma 4 31B MTP vLLM 서버 프로젝트: MTP를 통한 추론 속도 2배 향상

요약

핵심 포인트

댓글

Uber (UBER)를 보유해야 하는 설득력 있는 이유

Claude Code, Codex, Gemini를 포함한 12개의 AI 코딩 에이전트를 Visual Studio Code 내에서 팀으로서

UsbGpib V3, 새로운 오픈 소스 컨버터인 GPIBee로 하드웨어 설계 업데이트

Skillware 0.4.8 — 모든 에이전트를 위한 오프라인 프롬프트 인젝션 방화벽 (Offline Prompt Injection

Claude Code, Codex, Gemini를 포함한 12개의 AI 코딩 에이전트를 Visual Studio Code 내에서 팀으로서

UsbGpib V3, 새로운 오픈 소스 컨버터인 GPIBee로 하드웨어 설계 업데이트

Skillware 0.4.8 — 모든 에이전트를 위한 오프라인 프롬프트 인젝션 방화벽 (Offline Prompt Injection