나의 GLM-5.2-FP8 HGX-H200 SGLang Docker 배포 설정

안녕 여러분. 제목이 모든 것을 말해주고 있습니다. 현재 1~2시간 동안의 실험 끝에, 현재 하드웨어에서 제가 짜낼 수 있는 최대치입니다.

아니요, 저는 부자가 아닙니다. 제 회사의 GPU이며, 단지 제 경험을 공유하는 것입니다.

docker run -d \ 
--name glm-5.2-sglang \ 
--restart unless-stopped \ 
--gpus all \ 
--shm-size 32g \ 
--ipc=host \ 
-v /data/models/glm-5.2:/model \ 
-p 30000:30000 \ 
lmsysorg/sglang:latest \ 
sglang serve \ 
--model-path /model \ 
--served-model-name glm-5.2 \ 
--host 0.0.0.0 \ 
--port 30000 \ 
--tp 8 \ 
--mem-fraction-static 0.83 \ 
--enable-metrics \ 
--reasoning-parser glm45 \ 
--tool-call-parser glm47 \ 
--cuda-graph-max-bs 256

Cookbook의 플래그 중 사용하지 않은 것들:

DP - 각 샤드(shard)의 컨텍스트(context)를 120k 정도로 제한합니다. 저는 이와 관련된 모든 것을 끄고 순수하게 TP (Tensor Parallelism)만 사용했습니다.

moe-a2a-backend deepep - 이유는 모르겠지만, 실제로 초당 토큰 수(token/s)를 느리게 만듭니다. 끄기 전에는 약 70t/s였는데, 켰을 때는 약 50t/s 정도 나옵니다.

mem-fraction-static 0.83 - 이보다 더 많이 사용하려고 하면 OOM (Out of Memory)이 확실히 발생합니다.

결과는 262k 컨텍스트와 70t/s입니다.

네, 이게 전부입니다. 질문이 있다면 편하게 물어봐 주세요, 답변해 보도록 하겠습니다.
참고로 vLLM 공식 레시피는 H200에서 작동하지 않을 것입니다. 제 생각에는 dsv3 아키텍처에서의 KV 캐시 (KV cache) FP8 양자화 (quantization) 때문인 것 같습니다.

submitted by /u/Soft-Wedding4595
[link] [comments]

Insights

나의 GLM-5.2-FP8 HGX-H200 SGLang Docker 배포 설정

요약

핵심 포인트

댓글

AI 탐지기가 arXiv 샘플에서 32%를 기록 — 이는 저작권 문제가 아닌 신호이다

중국 Chery, 한국 KG Mobility 지분 10% 확보를 위해 7,500만 달러 투자 예정

MiniMax H3를 3가지 입력 방식으로 구분하여 사용하기: 비동기 동영상 API 설계 포인트

새로운 LLM 코딩 벤치마크 결과: Trail과 이중 진자 Euler vs RK4 적분 작업

AI 탐지기가 arXiv 샘플에서 32%를 기록 — 이는 저작권 문제가 아닌 신호이다

중국 Chery, 한국 KG Mobility 지분 10% 확보를 위해 7,500만 달러 투자 예정

MiniMax H3를 3가지 입력 방식으로 구분하여 사용하기: 비동기 동영상 API 설계 포인트

새로운 LLM 코딩 벤치마크 결과: Trail과 이중 진자 Euler vs RK4 적분 작업