나의 GLM-5.2-FP8 HGX-H200 SGLang Docker 배포 설정
요약
H200 GPU 환경에서 GLM-5.2 모델을 SGLang Docker를 통해 최적화하여 배포하는 방법을 공유합니다. 실험을 통해 262k 컨텍스트와 70t/s의 성능을 달성한 설정값과 주의사항을 다룹니다.
핵심 포인트
- H200 하드웨어에서 SGLang을 활용한 GLM-5.2 FP8 배포 가이드
- Tensor Parallelism(TP) 8 설정을 통한 성능 최적화
- moe-a2a-backend 비활성화 시 토큰 생성 속도 향상 확인
- OOM 방지를 위한 mem-fraction-static 0.83 설정 권장
- vLLM 대신 SGLang 사용 권장 (H200 KV 캐시 양자화 이슈)
안녕 여러분. 제목이 모든 것을 말해주고 있습니다. 현재 1~2시간 동안의 실험 끝에, 현재 하드웨어에서 제가 짜낼 수 있는 최대치입니다.
아니요, 저는 부자가 아닙니다. 제 회사의 GPU이며, 단지 제 경험을 공유하는 것입니다.
docker run -d \
--name glm-5.2-sglang \
--restart unless-stopped \
--gpus all \
--shm-size 32g \
--ipc=host \
-v /data/models/glm-5.2:/model \
-p 30000:30000 \
lmsysorg/sglang:latest \
sglang serve \
--model-path /model \
--served-model-name glm-5.2 \
--host 0.0.0.0 \
--port 30000 \
--tp 8 \
--mem-fraction-static 0.83 \
--enable-metrics \
--reasoning-parser glm45 \
--tool-call-parser glm47 \
--cuda-graph-max-bs 256
Cookbook의 플래그 중 사용하지 않은 것들:
DP - 각 샤드(shard)의 컨텍스트(context)를 120k 정도로 제한합니다. 저는 이와 관련된 모든 것을 끄고 순수하게 TP (Tensor Parallelism)만 사용했습니다.
moe-a2a-backend deepep - 이유는 모르겠지만, 실제로 초당 토큰 수(token/s)를 느리게 만듭니다. 끄기 전에는 약 70t/s였는데, 켰을 때는 약 50t/s 정도 나옵니다.
mem-fraction-static 0.83 - 이보다 더 많이 사용하려고 하면 OOM (Out of Memory)이 확실히 발생합니다.
결과는 262k 컨텍스트와 70t/s입니다.
네, 이게 전부입니다. 질문이 있다면 편하게 물어봐 주세요, 답변해 보도록 하겠습니다.
참고로 vLLM 공식 레시피는 H200에서 작동하지 않을 것입니다. 제 생각에는 dsv3 아키텍처에서의 KV 캐시 (KV cache) FP8 양자화 (quantization) 때문인 것 같습니다.
submitted by /u/Soft-Wedding4595
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기