DiffusionGemma: Google의 새로운 오픈 LLM이 초당 1,000 토큰을 달성하며 추론 경제를 변화시키는 방법

요약 (TL;DR): Google은 자기회귀 (Autoregressive) 모델보다 최대 4배 빠른 텍스트 생성 속도를 자랑하며, 단일 H100에서 1,000+ tokens/sec를 달성하고 18 GB VRAM에 들어가는 오픈 Apache 2.0 기반 확산 (Diffusion) LLM인 DiffusionGemma를 출시했습니다. 이는 정확도를 일부 희생하는 대신 속도를 얻는 방식입니다. 이것이 실제 환경에서 무엇을 의미하는지 설명합니다.

DiffusionGemma의 실체

Google DeepMind는 텍스트 생성에 이산 확산 (Discrete Diffusion)을 적용한 최초의 프로덕션급 오픈 웨이트 (Open-weight) 모델인 DiffusionGemma를 출시했습니다. Stable Diffusion과 같은 이미지 생성기 뒤에 있는 것과 동일한 기술 계열이 이제 언어에 적용된 것입니다.

왼쪽에서 오른쪽으로 한 번에 하나의 토큰을 예측하는 대신, DiffusionGemma는 256-토큰 블록을 노이즈로 채운 뒤 신뢰도 임계값에 도달할 때까지 여러 번의 디노이징 (Denoising) 패스를 통해 전체 블록을 반복적으로 정제합니다. 한 번의 순전파 (Forward pass)당 평균적으로 하나가 아닌 약 15-20개의 토큰을 확정합니다.

이는 오늘날 프로덕션 환경에 출시되는 모든 것과는 근본적으로 다른 연산 패턴입니다.

수치 데이터

지표	값
Tokens/sec (H100, FP8, low batch)	1,100+
...

참고로: 동일한 H100에서 비교 가능한 자기회귀 (Autoregressive) 모델은 대략 200-250 tokens/sec를 생성합니다. DiffusionGemma는 처리량 (Throughput) 면에서 최대 4배 더 빠릅니다. 이러한 도약은 디코딩 병목 현상을 메모리 대역폭 (Memory bandwidth)에서 연산 (Compute)으로 전환함으로써 이루어집니다.

아키텍처가 중요한 이유

DiffusionGemma는 Gemma 4 백본을 기반으로 구축된 26B Mixture of Experts (MoE) 모델이지만, 자기회귀 (Autoregressive) 디코더를 **확산 헤드 (Diffusion head)**로 교체했습니다.

단일 생성 과정은 다음과 같습니다:

모델은 무작위 플레이스홀더 (Placeholder) 토큰으로 256-토큰 블록을 초기화합니다.
최대 48단계의 디노이징 (Denoising) 단계를 실행하며, 양방향 어텐션 (Bidirectional attention) (블록 내의 모든 토큰이 다른 모든 토큰을 참조함)을 통해 모든 토큰을 동시에 정제합니다.
엔트로피 신뢰도 임계값을 넘어서는 토큰은 적응형 중단 (Adaptive stopping)을 통해 KV 캐시 (KV cache)에 조기에 확정됩니다.
256 토큰보다 긴 시퀀스의 경우, 확정된 블록은 캐싱되고 다음 블록이 시작됩니다.

GPT 스타일 모델과의 핵심적인 차이점은 다음과 같습니다: 생성 과정에서 토큰 N이 토큰 N+1부터 N+256까지를 볼 수 있다는 점입니다. 이를 통해 블록 전체에 걸친 진정한 **자기 수정 (self-correction)**이 가능해집니다. 자기회귀 (Autoregressive) 모델은 구조적으로 이를 수행할 수 없습니다.

강점과 약점

구조적 이점

코드 인필링 (Code infilling): 빈칸을 채우기 전, 단순히 왼쪽 부분뿐만 아니라 빈칸 양옆의 코드를 모두 확인합니다.
인라인 문서 편집 (Inline document editing): 주변 문맥을 고려하여 문단을 수정합니다.
실시간 지연 시간 민감형 앱 (Real-time latency-sensitive apps): H100 기준 초당 1,100 토큰을 달성하며, 이는 유사한 자기회귀 모델의 약 230 토큰/초와 대조됩니다.
단일 GPU 효율성: 3.8B의 활성 파라미터 (active parameters)는 양자화된 정밀도(quantized precision)에서 18 GB의 VRAM을 의미하며, 이는 RTX 4090 또는 5090에 탑재 가능합니다.

Gemma 4 26B (자기회귀 모델) 대비 벤치마크 트레이드오프

벤치마크	DiffusionGemma	Gemma 4 26B
MMLU Pro	77.6%	82.6%
...

Google은 이를 실험적인 단계라고 설명합니다. 추론 집약적인 워크로드(복잡한 수학, 다단계 논리, 시각적 이해)의 경우, 자기회귀 방식인 Gemma 4가 여전히 앞서 있습니다. DiffusionGemma는 최고 정확도보다 지연 시간(latency)과 처리량(throughput)이 더 중요할 때 적합한 도구입니다.

멀티모달 (Multi-modal) 능력

이 모델은 텍스트, 이미지(최대 1120 토큰까지 5단계 해상도), 그리고 비디오(1 fps 기준 최대 60초)가 교차된 형태를 처리합니다. 35개 이상의 언어에 대해 OCR, 차트 이해, 화면 이해, 필기 인식 등을 지원하며, 학습 데이터는 140개 이상의 언어를 포함합니다.

vLLM으로 5분 만에 배포하기

pip install vllm

vllm serve google/diffusiongemma-26B-A4B-it \
...

엔드포인트는 OpenAI와 호환됩니다. 기존 클라이언트를 http://localhost:8000으로 지정하기만 하면 되며, 다른 코드 변경은 필요하지 않습니다.

지원되는 추론 런타임 (inference runtimes): vLLM, Hugging Face Transformers, SGLang, MLX (Apple Silicon), NVIDIA NIM 컨테이너, Google Cloud Vertex AI Model Garden.

파인튜닝 (Fine-Tuning)

출시 첫날임에도 생태계가 빠르게 구축되었습니다:

Hackable Diffusion: Google의 JAX 기반 모듈형 연구 툴박스 (research toolbox)
Hugging Face Transformers: 표준 PEFT/LoRA 워크플로우 (workflows)
Unsloth: 메모리 효율적인 파인튜닝 (fine-tuning)
NVIDIA NeMo: 엔터프라이즈 학습 파이프라인 (training pipelines)

발표된 한 사례 연구(case study)에서는 Sudoku 데이터셋으로 DiffusionGemma를 파인튜닝하여 성공률을 약 0%에서 80%로 향상시켰습니다. 파인튜닝을 통해 모델이 이미 신뢰도가 높을 때 디노이징 (denoising)을 조기에 중단하도록 학습시켜 추론 단계 (inference steps)를 더욱 줄일 수도 있습니다. 자기회귀 (Autoregressive) 모델에는 이와 대등한 조절 수단이 없습니다.

지금 바로 평가해야 할 사항

이번 주:

H100 또는 RTX 4090 (18 GB VRAM 양자화 버전)에서 모델 구동하기
합성 작업 (synthetic tasks)이 아닌, 실제 지연 시간 (latency)에 민감한 워크로드에서 벤치마크 수행하기
현재 스택 대비 서빙 비용 (100만 토큰당 달러 비용) 비교하기

다음 스프린트 (Next sprint):

양방향 어텐션 (bidirectional attention) 덕분에 구조적 강점을 보이는 IDE 도구에서의 코드 인필링 (code infilling) 품질 테스트하기
실시간 채팅이나 인라인 편집을 실행하는 경우, 정확도 점수뿐만 아니라 UX 지표 측정하기
DiffusionGemma에 대한 Unsloth + LoRA 지원 추적하기 (빠르게 성숙하고 있습니다)

아키텍처 신호 (Architecture signal):
이 모델은 향후 출시될 Google의 독점적인 Gemini 모델들에 영향을 미칠 Gemini Diffusion 연구를 기반으로 구축되었습니다. 만약 디퓨전 추론 (diffusion inference)이 이 정도 품질 수준에서 안정화된다면, 대규모 환경에서의 자기회귀 (autoregressive) 서빙 가설을 완전히 새로 쓰게 될 것입니다.

결론

DiffusionGemma는 오늘날 여러분의 현재 LLM 스택을 즉시 대체할 프로덕션용 모델은 아닙니다. 정확도 측면의 트레이드오프 (trade-offs)는 실재하며, Google 또한 이 모델의 실험적 상태에 대해 투명하게 밝히고 있습니다.

하지만 처리량 (throughput) 수치는 진짜이며, 하드웨어 요구 사항은 접근 가능하고, 라이선스는 Apache 2.0입니다.

초당 1,100 토큰. 18 GB VRAM. 오픈 웨이트 (Open weights). Google 제공.

이 조합은 이번 주에 여러분의 실제 워크로드에서 벤치마크를 수행해 볼 가치가 충분합니다.

리소스:

이 정보가 유용했나요? 중요한 AI 출시 소식에 대해 노이즈를 줄이고 핵심만을 전달하는 분석을 계속 받아보려면 팔로우하세요.