
DeepMind가 'DiffusionGemma'를 공개하다 — 이미지 스타일 확산 모델을 통한 텍스트 생성
요약
DeepMind가 'DiffusionGemma'라는 새로운 오픈 웨이트 모델을 공개했습니다. 이 모델은 기존의 자기회귀 방식 대신 텍스트 확산 헤드를 사용하여 전체 텍스트 블록을 한 번에 정제하고 디노이징합니다. 이를 통해 오류 수정 기능과 높은 추론 속도를 구현했으며, Gemma 4 기반의 MoE 구조를 가지지만 로컬 환경에서도 접근성이 높습니다.
핵심 포인트
- 확산 모델(Diffusion Head) 사용으로 전체 블록을 한 번에 처리
- 오류 수정(Re-Noising) 기능을 통해 실시간 자체 교정 가능
- 로컬 추론 병목이 메모리 대역폭에서 컴퓨트로 이동하여 속도 향상
- Gemma 4 기반의 MoE 구조이며, 양자화 시 18GB VRAM으로 로컬 구동 용이
또 하나의 오픈 웨이트(open weight) 모델이 오늘 공개되었습니다. 이번 모델은 DeepMind에서 나온 것으로 보아, OSS(오픈 소스) 마니아들에게 좋은 날인 것 같습니다. Apache 2.0 라이선스로 출시되었습니다.
시장에 나와 있는 거의 모든 자기회귀(autoregressive) 모델처럼 토큰별로 순차적으로 텍스트를 생성하는 대신, 이 모델은 텍스트 확산 헤드(text diffusion head)를 사용합니다.
- 무작위 플레이스홀더 노이즈가 담긴 256개 토큰의 '캔버스'를 화면에 던집니다.
- 유니폼 스테이트 확산(Uniform State Diffusion)을 사용하여 전체 텍스트 블록을 한 번에 반복적으로 정제하고 디노이징(denoise)합니다.
- 모든 토큰이 다른 모든 토큰에 어텐션(attend)할 수 있기 때문에,
- 심지어 재노이징(Re-Noising)을 통한 오류 수정 기능까지 갖추고 있습니다. 즉, 생성 도중 신뢰도가 떨어지면 노이즈를 주입하여 실시간으로 자신의 실수를 스스로 교정합니다.
- 전체 블록을 한 번에 처리하기 때문에, 로컬 추론 병목 현상이 메모리 대역폭(memory bandwidth)에서 순수 컴퓨트(raw compute)로 이동합니다. (단일 NVIDIA H100에서 초당 1,000개 이상의 토큰. RTX 5090 로컬 환경에서 초당 700개 이상.)
하드웨어 요구 사항
이 모델은 Gemma 4 아키텍처 기반의 26B 전문가 혼합(Mixture of Experts, MoE)이지만, 추론 시에는 3.8B 파라미터만 활성화합니다. 양자화(quantized)할 경우, 18GB VRAM 용량 내에 충분히 들어맞아 로컬 PC 워크플로우에서 매우 접근성이 높습니다. 이미 Hugging Face에 라이브 상태이며 vLLM, Unsloth(파인튜닝용), 그리고 Hugging Face Transformers와 네이티브 데이-제로 통합을 지원합니다.
/u/beasthunterr69 제출 [링크] [댓글]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기