본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 18. 03:14

나의 GLM-5.2-FP8 HGX-H200 SGLang Docker 배포 설정

요약

H200 GPU 환경에서 GLM-5.2 모델을 SGLang Docker를 통해 최적화하여 배포하는 방법을 공유합니다. 실험을 통해 262k 컨텍스트와 70t/s의 성능을 달성한 설정값과 주의사항을 다룹니다.

핵심 포인트

  • H200 하드웨어에서 SGLang을 활용한 GLM-5.2 FP8 배포 가이드
  • Tensor Parallelism(TP) 8 설정을 통한 성능 최적화
  • moe-a2a-backend 비활성화 시 토큰 생성 속도 향상 확인
  • OOM 방지를 위한 mem-fraction-static 0.83 설정 권장
  • vLLM 대신 SGLang 사용 권장 (H200 KV 캐시 양자화 이슈)

안녕 여러분. 제목이 모든 것을 말해주고 있습니다. 현재 1~2시간 동안의 실험 끝에, 현재 하드웨어에서 제가 짜낼 수 있는 최대치입니다.

아니요, 저는 부자가 아닙니다. 제 회사의 GPU이며, 단지 제 경험을 공유하는 것입니다.

docker run -d \ 
--name glm-5.2-sglang \ 
--restart unless-stopped \ 
--gpus all \ 
--shm-size 32g \ 
--ipc=host \ 
-v /data/models/glm-5.2:/model \ 
-p 30000:30000 \ 
lmsysorg/sglang:latest \ 
sglang serve \ 
--model-path /model \ 
--served-model-name glm-5.2 \ 
--host 0.0.0.0 \ 
--port 30000 \ 
--tp 8 \ 
--mem-fraction-static 0.83 \ 
--enable-metrics \ 
--reasoning-parser glm45 \ 
--tool-call-parser glm47 \ 
--cuda-graph-max-bs 256

Cookbook의 플래그 중 사용하지 않은 것들:

DP - 각 샤드(shard)의 컨텍스트(context)를 120k 정도로 제한합니다. 저는 이와 관련된 모든 것을 끄고 순수하게 TP (Tensor Parallelism)만 사용했습니다.

moe-a2a-backend deepep - 이유는 모르겠지만, 실제로 초당 토큰 수(token/s)를 느리게 만듭니다. 끄기 전에는 약 70t/s였는데, 켰을 때는 약 50t/s 정도 나옵니다.

mem-fraction-static 0.83 - 이보다 더 많이 사용하려고 하면 OOM (Out of Memory)이 확실히 발생합니다.

결과는 262k 컨텍스트와 70t/s입니다.

네, 이게 전부입니다. 질문이 있다면 편하게 물어봐 주세요, 답변해 보도록 하겠습니다.
참고로 vLLM 공식 레시피는 H200에서 작동하지 않을 것입니다. 제 생각에는 dsv3 아키텍처에서의 KV 캐시 (KV cache) FP8 양자화 (quantization) 때문인 것 같습니다.

submitted by /u/Soft-Wedding4595
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0