DeepMind가 'DiffusionGemma'를 공개하다 — 이미지 스타일 확산 모델을 통한 텍스트 생성 - Insights | Molayo

또 하나의 오픈 웨이트(open weight) 모델이 오늘 공개되었습니다. 이번 모델은 DeepMind에서 나온 것으로 보아, OSS(오픈 소스) 마니아들에게 좋은 날인 것 같습니다. Apache 2.0 라이선스로 출시되었습니다.

시장에 나와 있는 거의 모든 자기회귀(autoregressive) 모델처럼 토큰별로 순차적으로 텍스트를 생성하는 대신, 이 모델은 텍스트 확산 헤드(text diffusion head)를 사용합니다.

무작위 플레이스홀더 노이즈가 담긴 256개 토큰의 '캔버스'를 화면에 던집니다.
유니폼 스테이트 확산(Uniform State Diffusion)을 사용하여 전체 텍스트 블록을 한 번에 반복적으로 정제하고 디노이징(denoise)합니다.
모든 토큰이 다른 모든 토큰에 어텐션(attend)할 수 있기 때문에,
심지어 재노이징(Re-Noising)을 통한 오류 수정 기능까지 갖추고 있습니다. 즉, 생성 도중 신뢰도가 떨어지면 노이즈를 주입하여 실시간으로 자신의 실수를 스스로 교정합니다.
전체 블록을 한 번에 처리하기 때문에, 로컬 추론 병목 현상이 메모리 대역폭(memory bandwidth)에서 순수 컴퓨트(raw compute)로 이동합니다. (단일 NVIDIA H100에서 초당 1,000개 이상의 토큰. RTX 5090 로컬 환경에서 초당 700개 이상.)

하드웨어 요구 사항
이 모델은 Gemma 4 아키텍처 기반의 26B 전문가 혼합(Mixture of Experts, MoE)이지만, 추론 시에는 3.8B 파라미터만 활성화합니다. 양자화(quantized)할 경우, 18GB VRAM 용량 내에 충분히 들어맞아 로컬 PC 워크플로우에서 매우 접근성이 높습니다. 이미 Hugging Face에 라이브 상태이며 vLLM, Unsloth(파인튜닝용), 그리고 Hugging Face Transformers와 네이티브 데이-제로 통합을 지원합니다.
/u/beasthunterr69 제출 [링크] [댓글]

Insights

DeepMind가 'DiffusionGemma'를 공개하다 — 이미지 스타일 확산 모델을 통한 텍스트 생성

요약

핵심 포인트

댓글

AI 탐지기가 arXiv 샘플에서 32%를 기록 — 이는 저작권 문제가 아닌 신호이다

중국 Chery, 한국 KG Mobility 지분 10% 확보를 위해 7,500만 달러 투자 예정

MiniMax H3를 3가지 입력 방식으로 구분하여 사용하기: 비동기 동영상 API 설계 포인트

새로운 LLM 코딩 벤치마크 결과: Trail과 이중 진자 Euler vs RK4 적분 작업

AI 탐지기가 arXiv 샘플에서 32%를 기록 — 이는 저작권 문제가 아닌 신호이다

중국 Chery, 한국 KG Mobility 지분 10% 확보를 위해 7,500만 달러 투자 예정

MiniMax H3를 3가지 입력 방식으로 구분하여 사용하기: 비동기 동영상 API 설계 포인트

새로운 LLM 코딩 벤치마크 결과: Trail과 이중 진자 Euler vs RK4 적분 작업