본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 19. 10:45

4090에서 최대 475t/s를 기록하는 DiffusionGemma 26b... 그리고 몇 가지 생각들

요약

RTX 3090/4090 환경에서 DiffusionGemma 26B 모델을 vLLM으로 구동한 성능 테스트 결과입니다. 특정 조건에서 매우 높은 토큰 생성 속도를 기록했으나, 정확도 저하와 컨텍스트 유지 능력 부족이라는 한계가 확인되었습니다.

핵심 포인트

  • RTX 4090에서 최대 475t/s의 매우 빠른 생성 속도 기록
  • vLLM 커스텀 Docker와 Gemma 4 도구/추론 파서 사용 필요
  • 배치 처리 시 속도 저하 및 응답 정확도 하락 문제 발생
  • 긴 컨텍스트 유지 및 Needle in a Haystack 테스트 성능 취약
  • 일반적인 llama.cpp 기반 모델 대비 실용성 낮음

3090/4090에서 이 모델을 다뤄보려고 생각 중인 다른 분들을 위해 약간의 정보를 공유하고자 합니다.

당연히 nvfp4는 사용할 수 없지만, diffusiongemma-26B-A4B-it-AWQ-INT4를 사용하여 vLLM에서 구동하는 데 성공했습니다. 이를 위해 제공되는 커스텀 vLLM Docker를 실행한 다음, gemma 4 도구/추론 파서(tool/reasoning parser)를 로드해야 했습니다. 모든 설정이 완료된 후, 첫 번째 프롬프트에서 475t/s를 기록했으며, 출력 길이와 컨텍스트(context)에 따라 290t/s에서 700t/s 사이로 작동하는 것으로 보입니다 (긴 출력은 매우 빠르게 나옵니다). 하지만 꽤 무겁기 때문에 긴 컨텍스트를 확보하기는 어렵습니다 (8k에서 테스트했으며 더 높일 수도 있었지만, 아주 많이 높이지는 못했습니다).

단점은 무엇일까요? 단일 사용자 전용입니다 (배치(batch) 처리를 시도하면 속도가 느려집니다). 응답 성능은 확실히 더 떨어지며 (일반 26ba4b가 하지 않는 실수를 저지릅니다), 컨텍스트가 빠르게 흐릿해져서 '건초더미 속의 바늘 찾기(needle in a haystack)'를 전혀 못 합니다. 짧은 프롬프트에서의 첫 번째 토큰 생성 시간(Time to first token)도 일반적인 LLM보다 아주 약간 더 느립니다 (모든 것을 확산(diffusing)하여 청크(chunks)를 한꺼번에 제공하기 때문에, 첫 번째 청크를 받는 데 시간이 조금 더 걸립니다).

시도해 볼 가치가 있을까요? 저는 아니라고 생각합니다. llama.cpp를 통해 실행되는 일반 26ba4b는 배치 처리 시 여전히 300t/s 이상을 안정적으로 유지하며, 훨씬 더 정확합니다.
submitted by /u/teachersecret
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0