본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 06:14

nvidia/diffusiongemma-26B-A4B-it-NVFP4 · Hugging Face

요약

Google DeepMind가 개발한 DiffusionGemma 26B A4B IT는 이산 확산 방식을 사용하는 오픈 웨이트 멀티모달 모델입니다. MoE 아키텍처와 양자화 기술을 통해 고속 멀티모달 텍스트 생성을 지원하며, 다양한 언어와 복잡한 추론 작업을 수행할 수 있습니다.

핵심 포인트

  • Gemma 4 기반 MoE 아키텍처 및 이산 확산 방식 채택
  • NVIDIA H100 환경에서 초당 1,100 토큰 이상의 고속 생성
  • 256K 컨텍스트 윈도우 및 네이티브 함수 호출 지원
  • 텍스트, 이미지, 비디오를 처리하는 멀티모달 능력 보유
  • NVFP4 양자화를 통한 최적화된 모델 성능 제공

모델 개요
설명:
DiffusionGemma 26B A4B IT는 Google DeepMind가 개발한 오픈 웨이트 (open-weights) 멀티모달 생성 모델로, 이산 확산 (discrete diffusion)을 통해 텍스트, 이미지, 비디오 입력을 처리하여 텍스트 출력을 생성합니다. 총 25.2B 파라미터와 3.8B 활성 파라미터를 가진 Gemma 4 26B A4B 전문가 혼합 (Mixture-of-Experts, MoE) 아키텍처를 기반으로 구축된 이 모델은 양방향 어텐션 (bidirectional attention)을 갖춘 인코더-디코더 (encoder-decoder) 설계를 채택하여 256-토큰 블록 단위로 토큰을 병렬 생성하며, NVIDIA Hopper H100 (FP8) 환경의 낮은 배치 사이즈 (batch size)에서 초당 1,100 토큰을 초과하는 고속 생성을 가능하게 합니다. DiffusionGemma 26B A4B IT는 256K 토큰 컨텍스트 윈도우 (context window), 설정 가능한 사고 (reasoning) 모드, 네이티브 함수 호출 (native function calling), 그리고 35개 이상의 언어에 걸친 다국어 추론을 지원합니다. NVIDIA DiffusionGemma 26B A4B IT NVFP4 모델은 모델 옵티마이저 (Model Optimizer)를 통해 양자화 (quantized)되었습니다.
이 모델은 상업적 및 비상업적 용도로 사용할 준비가 되어 있습니다.

사용 사례:
사용 사례: DiffusionGemma 26B A4B IT는 고속 멀티모달 텍스트 생성이 필요한 개발자, 연구자 및 기업을 위해 설계되었습니다. 지원되는 사용 사례에는 대화형 AI 및 챗봇, 텍스트 요약, 코드 생성 및 단계별 추론, 이미지 및 문서 이해 (OCR, 차트 이해, PDF 파싱, 화면 및 UI 파싱), 비디오 콘텐츠 분석, 네이티브 함수 호출을 통한 에이전트 워크플로우 (agentic workflows), 그리고 35개 이상의 언어에 걸친 다국어 NLP 작업이 포함됩니다.
submitted by /u/pmttyji
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0