4090에서 최대 475t/s를 기록하는 DiffusionGemma 26b... 그리고 몇 가지 생각들

3090/4090에서 이 모델을 다뤄보려고 생각 중인 다른 분들을 위해 약간의 정보를 공유하고자 합니다.

당연히 nvfp4는 사용할 수 없지만, diffusiongemma-26B-A4B-it-AWQ-INT4를 사용하여 vLLM에서 구동하는 데 성공했습니다. 이를 위해 제공되는 커스텀 vLLM Docker를 실행한 다음, gemma 4 도구/추론 파서(tool/reasoning parser)를 로드해야 했습니다. 모든 설정이 완료된 후, 첫 번째 프롬프트에서 475t/s를 기록했으며, 출력 길이와 컨텍스트(context)에 따라 290t/s에서 700t/s 사이로 작동하는 것으로 보입니다 (긴 출력은 매우 빠르게 나옵니다). 하지만 꽤 무겁기 때문에 긴 컨텍스트를 확보하기는 어렵습니다 (8k에서 테스트했으며 더 높일 수도 있었지만, 아주 많이 높이지는 못했습니다).

단점은 무엇일까요? 단일 사용자 전용입니다 (배치(batch) 처리를 시도하면 속도가 느려집니다). 응답 성능은 확실히 더 떨어지며 (일반 26ba4b가 하지 않는 실수를 저지릅니다), 컨텍스트가 빠르게 흐릿해져서 '건초더미 속의 바늘 찾기(needle in a haystack)'를 전혀 못 합니다. 짧은 프롬프트에서의 첫 번째 토큰 생성 시간(Time to first token)도 일반적인 LLM보다 아주 약간 더 느립니다 (모든 것을 확산(diffusing)하여 청크(chunks)를 한꺼번에 제공하기 때문에, 첫 번째 청크를 받는 데 시간이 조금 더 걸립니다).

시도해 볼 가치가 있을까요? 저는 아니라고 생각합니다. llama.cpp를 통해 실행되는 일반 26ba4b는 배치 처리 시 여전히 300t/s 이상을 안정적으로 유지하며, 훨씬 더 정확합니다.
submitted by /u/teachersecret
[link] [comments]

Insights

4090에서 최대 475t/s를 기록하는 DiffusionGemma 26b... 그리고 몇 가지 생각들

요약

핵심 포인트

댓글

10년이 지난 지금도 1080p 게이밍에서 작동하는 GTX 1080 Ti, 하지만 세월의 흔적을 감추지 못하다

RLVR에서 RLSVR로

Claude Code 주간 업데이트 요약 (2026/08/02 주)

New Yorker: 중국, 미래 산업을 선점하기 위해 질주 중

RLVR에서 RLSVR로

Claude Code 주간 업데이트 요약 (2026/08/02 주)

New Yorker: 중국, 미래 산업을 선점하기 위해 질주 중