Diffusion Gemma는 속도는 4배 빠르지만, 오류는 6배 더 많이 만듭니다!

단일 H100 (FP8) 환경에서 새로운 Gemma 확산(diffusion) 모델을 그 자율 회귀(autoregressive) 쌍둥이 모델과 비교하여 벤치마크했습니다. 각 모델에 동일한 세 가지 과제—스티브 잡스 전기 작성, 테트리스 역사, BeOS 이야기—를 주었습니다. 주제가 이전보다 덜 인기 있는 순서로 진행되었습니다. 그런 다음 모든 답변의 모든 주장을 사실 확인(fact-check)했습니다.

Gemma4는 45개의 사실을 맞혔고, 5개를 틀렸습니다. DiffusionGemma는 33개만 맞히고, 28개를 틀렸습니다. 주제가 덜 인기 있을수록 성능이 떨어졌는데: 잡스 관련해서는 4개 오류, 테트리스에서는 12개 오류, BeOS에서는 12개 오류였습니다. 이 모델은 스티브 잡스의 어머니를 Clara Clley라고 지칭했고, Pajitnov이라는 동료에게 Geri Gulovik이라는 가짜 이름을 만들어냈으며, BeBox의 가격을 $9,999로 책정했습니다. 실제 비용은 $1,600이었습니다.

출력 결과:
Gemma4 26B A4B: 218 tok/s · 총 15.1초 · 45개 사실 · 5개 오류
DiffusionGemma 26B A4B: 763 tok/s · 총 3.7초 · 33개 사실 · 28개 오류

그 이유는 간단합니다. DiffusionGemma는 한 번에 256개의 토큰을 화면에 쏟아내고, 텍스트가 부드럽게 들릴 때까지 여러 번 다듬습니다. 이 모델은 '부드러움'만을 신경 씁니다: 가짜 이름, 날짜 또는 숫자가 실제 것만큼이나 부드럽게 들리면 그것으로 간주합니다. 반면, 일반 Gemma4는 한 단어씩 작성하며 이전의 모든 내용과 새로운 단어를 비교하여 확인합니다. Google은 출시 게시물에서 스스로 말했습니다: 사실성이 낮지만, 사실이 중요할 때는 일반 Gemma 4를 사용하라고요.

제출자 /u/gladkos
[link] [comments]

Insights

Diffusion Gemma는 속도는 4배 빠르지만, 오류는 6배 더 많이 만듭니다!

요약

핵심 포인트

댓글

AI 에이전트를 위해 VPN이 필요할까? 아마 아닐 것입니다 — 먼저 이 질문들을 던져보세요

무인 AI 에이전트를 위한 인간 승인 (Human Approval)

경영대학원이 AI를 핵심 엔지니어링 기술처럼 가르치는 이유

N0-VTLA

무인 AI 에이전트를 위한 인간 승인 (Human Approval)

경영대학원이 AI를 핵심 엔지니어링 기술처럼 가르치는 이유

N0-VTLA