본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 25. 20:20

Gemma 4 31B MTP vLLM Server 저장소 공개

요약

Gemma 4 31B MTP 모델을 vLLM 환경에서 효율적으로 서빙하기 위한 저장소를 공개했습니다. 로컬 RTX 5090 환경부터 NVIDIA DGX Spark 클러스터까지 지원하며, 투기적 디코딩을 통한 추론 최적화 기능을 제공합니다.

핵심 포인트

  • Gemma 4 MTP 모델의 vLLM 통합 및 투기적 디코딩 지원
  • FastAPI 기반 게이트웨이 및 OpenAI/Anthropic 호환 엔드포인트 제공
  • NVIDIA DGX Spark 클러스터를 위한 Ray/vLLM 워크플로우 포함
  • 로컬 텐서 병렬 서빙 및 대규모 클러스터 추론 최적화

여러분, 최근 개선 사항을 반영하여 Gemma 4 31B MTP vLLM Server 저장소(repo)를 공개 버전(public release)으로 정리하여 공유했습니다 🎉 이 저장소는 처음에 Gemma 4 MTP가 출시되었을 때, vLLM 통합이 아직 준비되지 않았던 시점에 준비했습니다. 목적은 google/gemma-4-31B-it 모델을 vLLM 상에서 Gemma 4 MTP 투기적 디코딩 (speculative decoding)을 통해 서비스할 수 있도록 하는 것이었습니다. 이를 위해 FastAPI 기반의 사이드카 게이트웨이 (sidecar gateway), OpenAI 호환 및 Anthropic 호환 엔드포인트 (endpoint), API 키 인증 (API-key auth), CORS, 속도 제한 (rate limiting), 준비 상태/상태 확인 (readiness/health checks), 런타임 매니페스트 (runtime manifest) 및 벤치마크 툴링 (benchmark tooling)을 추가했습니다.

최근 업데이트를 통해 이 저장소는 이제 단순히 2x RTX 5090 로컬 텐서 병렬 서빙 (tensor-parallel serving)에만 집중하는 것이 아니라, DGX Spark 스타일의 NVIDIA 클러스터 (cluster)를 위한 공개 안전형 (public-safe) Ray/vLLM 실행 (launch) 및 라이브 서빙 (live serve) 워크플로우를 포함합니다.

주요 특징:

  • vLLM 0.21.0 Gemma 4 MTP 실행 (launch) 프로필
  • 2x RTX 5090 상에서의 FP8 GPU 전용 MTP 벤치마크 증거
  • DGX Spark 2/4/6/8 노드 (node)를 위한 Ray/vLLM 드라이 런 실행 플래너 (dry-run launch planner)
  • cluster-serve를 통한 프라이빗 토폴로지 (private topology) + 명시적 --confirm-live를 통한 MTP 준비 완료 라이브 서빙
  • Socket 및 RoCE-A 전송 (transport) 프로필
  • 공개 안전형 (public-safe) 토폴로지 예시; 실제 호스트 이름/IP 파일은 git 외부에서 관리됨
  • RoCE-A의 경우 /v1/models만으로는 충분하지 않음: 생성 스모크 테스트 (generation smoke), 큐 드레인 (queue drain), 런타임 바운드 NCCL 로그 (runtime-bound NCCL logs), Ray 연속성, 소크 (soak) 및 롤백 (rollback) 증거 접근 방식 유지
  • 분리된 vLLM 실행 (Detached vLLM launch), SSH 사전 점검 (preflight), 런타임 범위 로그/PID 및 실패 시 명시적 롤백 (explicit rollback-on-failure) 지원

요약하자면, 이 저장소는 이제 로컬 NVIDIA 텐서 병렬 서빙 (tensor-parallel serving)과 DGX Spark 2/4/6/8 노드 클러스터 추론 (cluster inference) 모두를 위해 더 범용적이고, 안전하며, 빨라졌습니다 🎉
[IMG:1]

AI 자동 생성 콘텐츠

본 콘텐츠는 X @alicankiraz0 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0