본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 03:46

Diffusion Gemma는 속도는 4배 빠르지만, 오류는 6배 더 많이 만듭니다!

요약

새로운 Diffusion Gemma 모델을 기존 자율 회귀(autoregressive) Gemma4와 비교한 벤치마크 결과입니다. DiffusionGemma는 속도는 빠르지만, 사실 확인 과정에서 오류가 훨씬 많이 발견되었습니다. 반면, 일반 Gemma4는 느리지만 정확도가 높아 중요한 정보 전달에 더 적합함을 보여줍니다.

핵심 포인트

  • DiffusionGemma는 자율 회귀 모델 대비 약 4배 빠른 속도를 보임.
  • DiffusionGemma는 '부드러움'에 초점을 맞춰 사실적 오류를 많이 만듦.
  • 일반 Gemma4는 단어별 비교 확인을 통해 높은 정확도를 유지함.
  • 주제가 덜 인기 있을수록 두 모델 모두 성능 저하가 관찰됨.

단일 H100 (FP8) 환경에서 새로운 Gemma 확산(diffusion) 모델을 그 자율 회귀(autoregressive) 쌍둥이 모델과 비교하여 벤치마크했습니다. 각 모델에 동일한 세 가지 과제—스티브 잡스 전기 작성, 테트리스 역사, BeOS 이야기—를 주었습니다. 주제가 이전보다 덜 인기 있는 순서로 진행되었습니다. 그런 다음 모든 답변의 모든 주장을 사실 확인(fact-check)했습니다.

Gemma4는 45개의 사실을 맞혔고, 5개를 틀렸습니다. DiffusionGemma는 33개만 맞히고, 28개를 틀렸습니다. 주제가 덜 인기 있을수록 성능이 떨어졌는데: 잡스 관련해서는 4개 오류, 테트리스에서는 12개 오류, BeOS에서는 12개 오류였습니다. 이 모델은 스티브 잡스의 어머니를 Clara Clley라고 지칭했고, Pajitnov이라는 동료에게 Geri Gulovik이라는 가짜 이름을 만들어냈으며, BeBox의 가격을 $9,999로 책정했습니다. 실제 비용은 $1,600이었습니다.

출력 결과:
Gemma4 26B A4B: 218 tok/s · 총 15.1초 · 45개 사실 · 5개 오류
DiffusionGemma 26B A4B: 763 tok/s · 총 3.7초 · 33개 사실 · 28개 오류

그 이유는 간단합니다. DiffusionGemma는 한 번에 256개의 토큰을 화면에 쏟아내고, 텍스트가 부드럽게 들릴 때까지 여러 번 다듬습니다. 이 모델은 '부드러움'만을 신경 씁니다: 가짜 이름, 날짜 또는 숫자가 실제 것만큼이나 부드럽게 들리면 그것으로 간주합니다. 반면, 일반 Gemma4는 한 단어씩 작성하며 이전의 모든 내용과 새로운 단어를 비교하여 확인합니다. Google은 출시 게시물에서 스스로 말했습니다: 사실성이 낮지만, 사실이 중요할 때는 일반 Gemma 4를 사용하라고요.

제출자 /u/gladkos
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0