4x7900XTX 환경에서의 DiffusionGemma 4 구동
요약
4개의 AMD Radeon RX 7900 XTX GPU 환경에서 DiffusionGemma 26B 모델을 vLLM을 통해 구동한 성능 테스트 결과입니다. 생성 시 100 tps, 전체 처리 속도는 약 45-60 t/s를 기록했습니다.
핵심 포인트
- 4x 7900 XTX 환경에서 DiffusionGemma 26B 구동 성공
- 생성 속도 100 tps, 전체 처리 속도 45-60 t/s 달성
- vLLM dgemma 브랜치 및 Docker를 활용한 배포 구성
- GPU KV 캐시 및 메모리 활용 최적화 데이터 포함
생성(generation) 시에는 100 tps를 기록했지만, 프롬프트 처리(prompt processing) 대기 시간을 포함한 전체 시간은 약 45-60 t/s입니다.
사용 가능한 메모리 표시:
GPU KV 캐시(KV cache) 크기: 152,671 토큰
요청당 131,072 토큰 기준 최대 동시성(Maximum concurrency): 1.16x
해당 GPU에 대한 amd-smi 모니터링 결과:
GPU XCP POWER GPU_T MEM_T GFX_CLK GFX% MEM% ENC% DEC% VRAM_USAGE 3 0 183 W 82 °C 84 °C 3036 MHz 100 % 5 % N/A 0 % 23.6/ 24.0 GB 5 0 161 W 81 °C 88 °C 3101 MHz 100 % 0 % N/A 0 % 23.7/ 24.0 GB 7 0 165 W 78 °C 86 °C 3095 MHz 100 % 1 % N/A 0 % 23.7/ 24.0 GB 8 0 154 W 80 °C 88 °C 3090 MHz 100 % 0 % N/A 0 % 23.6/ 24.0 GB
vllm dgemma 브랜치에서 DiffusionGemma 26B 구동 (4x 7900 XTX)
set -uo pipefail docker run --name "$1"
--rm --tty --ipc=host --shm-size=32g
--device /dev/kfd:/dev/kfd
--device /dev/dri/renderD131:/dev/dri/renderD131
--device /dev/dri/renderD133:/dev/dri/renderD133
--device /dev/dri/renderD136:/dev/dri/renderD136
--device /dev/dri/renderD135:/dev/dri/renderD135
--device /dev/mem:/dev/mem
--security-opt seccomp=unconfined
--group-add video
-e HIP_VISIBLE_DEVICES=0,1,2,3
-e ROCR_VISIBLE_DEVICES=0,1,2,3
-v /mnt/tb_disk/llm:/app/models:ro
-v /mnt/tb_disk/llm/torch_compile_cache:/root/.cache/vllm/torch_compile_cache
-v /opt/services/llama-swap/moe_configs/E=128,N=176,device_name=AMD_Radeon_RX7900XTX.json:/usr/local/lib/python3.12/dist-packages/vllm/model_executor/layers/fused_moe/configs/E=128,N=176,device_name=AMD_Radeon_RX7900XTX.json:ro
-e TRUST_REMOTE_CODE=1
-e OMP_NUM_THREADS=8
-e PYTORCH_TUNABLEOP_ENABLED=1
-e GPU_MAX_HW_QUEUES=1
-e VLLM_ROCM_USE_AITER=0
-e VLLM_ROCM_USE_AITER_MOE=0
-e VLLM_USE_V2_MODEL_RUNNER=1
-e PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:256
-p "$2":8000
--entrypoint vllm
vllm-dgemma:nocompile
serve
/app/models/models/vllm/diffusiongemma-26B-A4B-it
--served-model-name "$1" --host 0.0.0.0 --port 8000 --trust-remote-code
--gpu-memory-utilization 0.65 --tensor-parallel-size 4
--tool-call-parser gemma4 --enable-auto-tool-choice \
--reasoning-parser gemma4 \ --attention-backend TRITON_ATTN \ --max-num-seqs 2 --max-model-len 131072 \ --generation-config vllm \ --hf-overrides '{"diffusion_sampler": "entropy_bound", "diffusion_entropy_bound": 0.1}'
작동은 하지만, 이를 실행하기 위해 도커 이미지 (docker image)를 준비하는 데 deepseek-v4-pro 토큰 200만~300만 개를 소모했습니다.
제출자: /u/djdeniro
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기