생성(generation) 시에는 100 tps를 기록했지만, 프롬프트 처리(prompt processing) 대기 시간을 포함한 전체 시간은 약 45-60 t/s입니다.

사용 가능한 메모리 표시:
GPU KV 캐시(KV cache) 크기: 152,671 토큰
요청당 131,072 토큰 기준 최대 동시성(Maximum concurrency): 1.16x

해당 GPU에 대한 amd-smi 모니터링 결과:
GPU XCP POWER GPU_T MEM_T GFX_CLK GFX% MEM% ENC% DEC% VRAM_USAGE 3 0 183 W 82 °C 84 °C 3036 MHz 100 % 5 % N/A 0 % 23.6/ 24.0 GB 5 0 161 W 81 °C 88 °C 3101 MHz 100 % 0 % N/A 0 % 23.7/ 24.0 GB 7 0 165 W 78 °C 86 °C 3095 MHz 100 % 1 % N/A 0 % 23.7/ 24.0 GB 8 0 154 W 80 °C 88 °C 3090 MHz 100 % 0 % N/A 0 % 23.6/ 24.0 GB

vllm dgemma 브랜치에서 DiffusionGemma 26B 구동 (4x 7900 XTX)

set -uo pipefail docker run --name "$1"
--rm --tty --ipc=host --shm-size=32g
--device /dev/kfd:/dev/kfd
--device /dev/dri/renderD131:/dev/dri/renderD131
--device /dev/dri/renderD133:/dev/dri/renderD133
--device /dev/dri/renderD136:/dev/dri/renderD136
--device /dev/dri/renderD135:/dev/dri/renderD135
--device /dev/mem:/dev/mem
--security-opt seccomp=unconfined
--group-add video
-e HIP_VISIBLE_DEVICES=0,1,2,3
-e ROCR_VISIBLE_DEVICES=0,1,2,3
-v /mnt/tb_disk/llm:/app/models:ro
-v /mnt/tb_disk/llm/torch_compile_cache:/root/.cache/vllm/torch_compile_cache
-v /opt/services/llama-swap/moe_configs/E=128,N=176,device_name=AMD_Radeon_RX7900XTX.json:/usr/local/lib/python3.12/dist-packages/vllm/model_executor/layers/fused_moe/configs/E=128,N=176,device_name=AMD_Radeon_RX7900XTX.json:ro
-e TRUST_REMOTE_CODE=1
-e OMP_NUM_THREADS=8
-e PYTORCH_TUNABLEOP_ENABLED=1
-e GPU_MAX_HW_QUEUES=1
-e VLLM_ROCM_USE_AITER=0
-e VLLM_ROCM_USE_AITER_MOE=0
-e VLLM_USE_V2_MODEL_RUNNER=1
-e PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:256
-p "$2":8000
--entrypoint vllm
vllm-dgemma:nocompile
serve
/app/models/models/vllm/diffusiongemma-26B-A4B-it
--served-model-name "$1" --host 0.0.0.0 --port 8000 --trust-remote-code
--gpu-memory-utilization 0.65 --tensor-parallel-size 4
--tool-call-parser gemma4 --enable-auto-tool-choice \

--reasoning-parser gemma4 \ --attention-backend TRITON_ATTN \ --max-num-seqs 2 --max-model-len 131072 \ --generation-config vllm \ --hf-overrides '{"diffusion_sampler": "entropy_bound", "diffusion_entropy_bound": 0.1}'
작동은 하지만, 이를 실행하기 위해 도커 이미지 (docker image)를 준비하는 데 deepseek-v4-pro 토큰 200만~300만 개를 소모했습니다.
제출자: /u/djdeniro
[link] [comments]

Insights

4x7900XTX 환경에서의 DiffusionGemma 4 구동

요약

핵심 포인트

vllm dgemma 브랜치에서 DiffusionGemma 26B 구동 (4x 7900 XTX)

댓글

남아프리카 공화국, 국경 간 암호화폐 거래에 대한 초안 규정 발표

AI로 코드는 빠르게 작성할 수 있는데 개발이 극적으로 빨라지지 않는 이유

IBM 주가는 고점 대비 33% 하락했고 배당 수익률은 3%입니다. 이 배당금이 회사에 실제로 미치는 비용은 얼마일까요?

세계 면화 무역량, 2028/29 시즌까지 1,030만 톤에 달할 전망

AI로 코드는 빠르게 작성할 수 있는데 개발이 극적으로 빨라지지 않는 이유

IBM 주가는 고점 대비 33% 하락했고 배당 수익률은 3%입니다. 이 배당금이 회사에 실제로 미치는 비용은 얼마일까요?

세계 면화 무역량, 2028/29 시즌까지 1,030만 톤에 달할 전망