본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 25. 03:50

모델 해킹을 통해 GH200 시스템에서 GLM5.2의 속도를 약 2.5 tok/s에서 50 tok/s 이상으로 끌어올렸습니다

요약

GH200 시스템에서 GLM5.2 모델의 추론 속도를 2.5 tok/s에서 최대 55 tok/s로 대폭 향상시킨 최적화 사례를 소개합니다. MTP 헤드 이식과 vLLM 패치를 통해 메모리 스트리밍 효율을 극대화했습니다.

핵심 포인트

  • MTP 헤드 이식 및 AWQ 양자화 모델 병합을 통한 성능 최적화
  • vLLM 패치를 적용하여 RAM에서 VRAM으로의 스트리밍 속도 개선
  • GH200(H100+Grace) 환경에서 단일 추론 시 약 45 tok/s 달성
  • NUMA 설정 및 모델 해킹을 통한 실질적인 추론 성능 향상 방법 제시

안녕하세요.
이것은 저의 Local LLM 모험의 세 번째 파트입니다. 저는 서버-데스크톱을 해킹하여 만든 미친 시스템을 가지고 있습니다:

구성 사양 (Component Spec)

GPU: 2x Hopper H100, 각각 96 GB HBM3
CPU: 2x Grace, 각각 72 코어
호스트 메모리 (Host memory): Grace당 480 GB LPDDR5X, 총 960 GB

그래서 기술적으로 GLM5.2를 실행할 수 있습니다. 하지만 vLLM에서의 2.5 tok/second와 같은 단순한 (naive) 설정은 형편없었습니다.
NUMA를 만져서 속도를 높였지만, 결국 약간의 수술을 해야 했습니다. 저는 office zai의 GLM-5.2-FP8 리포지토리(repo)에서 MTP 헤드를 가져와 CyanKiwi의 AWQ 양자화 (quant) 버전 본체에 이식했습니다.
이 지침을 사용하여 여러분도 똑같이 할 수 있습니다. CyanKiwi의 가중치 (weights)를 모두 가져와야 하지만, zai 리포지토리에서는 몇 개의 파일만 가져오면 됩니다. 스크립트가 두 개를 병합할 것입니다. 또한 변경 사항을 처리하기 위해 vLLM을 패치 (patch)해야 합니다.
이를 통해 RAM에서 VRAM으로 스트리밍할 때, 4x 동시성 (concurrency)에서 최적의 경우 약 55 tok/sec, 단일 추론 (single inference)에서 약 45 tok/sec까지 속도를 높였습니다. 도움이 되길 바랍니다!

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0