Google, DiffusionGemma 오픈 소스 공개: 26B 모델이 H100에서 초당 1,000 토큰 달성

요약

Google이 확산(Diffusion) 방식을 활용한 26B 파라미터 텍스트 모델 DiffusionGemma를 오픈 소스로 공개했습니다. 이 모델은 기존 자기회귀 방식보다 약 4배 빠른 초당 1,000 토큰의 생성 속도를 구현하며, Apache 2.0 라이선스로 제공됩니다.

핵심 포인트

확산 프로세스를 통한 병렬 생성으로 추론 속도 극대화
단일 H100 GPU에서 초당 약 1,000 토큰 달성
26B 파라미터 규모의 MoE 구조 적용
Apache 2.0 라이선스의 완전한 오픈 웨이트 모델
자기회귀 모델 대비 속도는 빠르나 품질 트레이드오프 존재

Google은 H100에서 초당 1,000 토큰을 기록하며 자기회귀 (Autoregressive) 모델보다 4배 빠르지만 품질은 다소 낮은 26B 파라미터 확산 텍스트 모델 (Diffusion text model)인 DiffusionGemma를 오픈 소스로 공개했습니다.

Google은 6월 10일에 확산 (Diffusion) 방식을 통해 텍스트를 생성하는 26B 파라미터 오픈 웨이트 (Open-weight) 모델인 DiffusionGemma를 출시했습니다. Nvidia는 단일 H100 GPU에서 초당 1,000 토큰을 달성한다고 주장하며, 이는 Gemma 4와 같은 자기회귀 (Autoregressive) 모델보다 약 4배 빠른 속도입니다.

주요 사실

총 260억 개의 파라미터, 토큰당 약 40억 개의 활성 파라미터 (MoE).
단일 H100 GPU에서 초당 1,000 토큰 달성 주장.
Apache 2.0 라이선스 — 완전한 오픈 웨이트 (Open-weight).
Hugging Face에서 사용 가능: google/diffusiongemma-26B-A4B-it.
Nvidia가 NIM 클라우드 API에서 무료 추론 (Inference) 제공.

Google은 텍스트를 하나씩 생성하는 대신, 이미지 AI가 노이즈를 그림으로 바꾸는 방식과 유사하게 확산 (Diffusion)을 통해 텍스트를 생성하는 260억 파라미터 모델인 DiffusionGemma를 출시했습니다. The Decoder와 Simon Willison의 블로그에 따르면, 이 모델은 Apache 2 라이선스 하에 google/diffusiongemma-26B-A4B-it로 Hugging Face에서 사용할 수 있으며, 이는 일반적으로 더 제한적인 모델을 출시하는 Google의 방식에서 크게 벗어난 것입니다.

작동 원리 및 속도가 중요한 이유

DiffusionGemma는 표준적인 자기회귀 (Autoregressive) 방식(한 번에 하나의 토큰을 예측하는 방식)을 피하고, 전체 출력 시퀀스의 잠재 표현 (Latent representation)을 반복적으로 디노이징 (Denoising)하는 연속적인 확산 (Diffusion) 프로세스를 사용합니다. 이러한 병렬 생성 방식이 속도 향상을 가능하게 합니다. Nvidia는 단일 H100 GPU에서 초당 약 1,000 토큰을 달성하며, 이는 유사한 자기회귀 (Autoregressive) 모델보다 약 4배 빠른 속도라고 주장합니다. Simon Willison은 Nvidia의 NIM 클라우드 API를 통해 모델을 테스트했으며, 4.4초 동안 2,409개의 토큰을 생성했다고 보고했습니다. 이는 Python 도구의 오버헤드를 고려하더라도 최소 초당 500 토큰 수준이며, 실제 원시 추론 (Raw inference) 속도는 이보다 더 빠를 가능성이 높습니다.

이것은 Google의 첫 번째 텍스트용 확산 모델 (diffusion-for-text) 실험이 아닙니다. 지난 5월, Google은 실험적인 Gemini Diffusion 모델을 잠시 공개한 바 있으며, 당시 Willison은 해당 모델이 초당 857 토큰의 속도로 실행되는 것을 기록했습니다. 해당 연구는 이제 완전한 오픈 웨이트 (open-weight) Gemma 모델로 돌아왔으며, 이는 Google이 확산 기반 (diffusion-based) 텍스트 생성을 프로덕션 준비가 된 (production-ready) 대안으로 만드는 데 진지하게 임하고 있음을 시사합니다.

품질 트레이드오프 (Quality trade-off) 및 포지셔닝

출력 품질이 더 낮기 때문에, Google은 현재 이를 개발자들을 위한 실험적 도구로 포지셔닝하고 있습니다. 이 모델은 26B 파라미터 혼합 전문가 (Mixture of Experts, 26B-A4B) 모델로, 토큰당 약 4B 개의 파라미터만 활성화됨을 의미합니다. 이는 추론 (inference) 비용을 저렴하게 유지하기 위한 설계 선택입니다. Nvidia는 현재 개발자들이 실험할 수 있도록 진입 장벽을 낮추기 위해 자사의 NIM 클라우드 API에서 이 모델을 무료로 호스팅하고 있습니다.

커뮤니티 반응 및 맥락

Hacker News의 댓글 작성자들은 전략적 중요성을 언급했습니다: "Google은 계속해서 힘을 과시하고 있습니다. Gemini가 코드 및 에이전트 (agentic) 활용 측면에서 Claude나 OpenAI 모델에 비해 더 경쟁력이 있지 않다는 점이 놀랍습니다. Google이 여전히 업계 최고의 AI 인재들을 보유하고 있음이 분명하기 때문입니다." 이 모델의 속도는 Gemini Nano부터 TPU v6e 배포에 이르기까지 Google이 집중적으로 투자해 온 영역인 온디바이스 (on-device) 및 근실시간 (near-realtime) 사용 사례에 특히 유용합니다.

주목해야 할 점

커뮤니티가 DiffusionGemma를 Gemma 4 및 Llama 4와 비교하며 스트레스 테스트를 진행함에 따라, 표준 NLP 작업 (MMLU, HellaSwag, HumanEval)에 대한 벤치마크 결과를 지켜봐야 합니다. 핵심 질문은 미세 조정 (fine-tuning)이나 더 많은 확산 단계 (diffusion steps)를 통해 품질 격차가 좁혀질 수 있는지 여부입니다. 또한 Nvidia의 NIM 사용 지표도 주목해야 합니다. 개발자 채택이 급증한다면, 이는 비자기회귀 (non-autoregressive) 아키텍처에 대한 실제 수요가 있음을 나타냅니다.

Flat minimalist illustration of a white pelican with a large orange beak riding a red bicycle with black wheels, against a pale blue background with a

출처: simonwillison.net

원문은 gentic.news에 게시되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기