nvidia/diffusiongemma-26B-A4B-it-NVFP4 · Hugging Face - Insights | Molayo

모델 개요
설명:
DiffusionGemma 26B A4B IT는 Google DeepMind가 개발한 오픈 웨이트 (open-weights) 멀티모달 생성 모델로, 이산 확산 (discrete diffusion)을 통해 텍스트, 이미지, 비디오 입력을 처리하여 텍스트 출력을 생성합니다. 총 25.2B 파라미터와 3.8B 활성 파라미터를 가진 Gemma 4 26B A4B 전문가 혼합 (Mixture-of-Experts, MoE) 아키텍처를 기반으로 구축된 이 모델은 양방향 어텐션 (bidirectional attention)을 갖춘 인코더-디코더 (encoder-decoder) 설계를 채택하여 256-토큰 블록 단위로 토큰을 병렬 생성하며, NVIDIA Hopper H100 (FP8) 환경의 낮은 배치 사이즈 (batch size)에서 초당 1,100 토큰을 초과하는 고속 생성을 가능하게 합니다. DiffusionGemma 26B A4B IT는 256K 토큰 컨텍스트 윈도우 (context window), 설정 가능한 사고 (reasoning) 모드, 네이티브 함수 호출 (native function calling), 그리고 35개 이상의 언어에 걸친 다국어 추론을 지원합니다. NVIDIA DiffusionGemma 26B A4B IT NVFP4 모델은 모델 옵티마이저 (Model Optimizer)를 통해 양자화 (quantized)되었습니다.
이 모델은 상업적 및 비상업적 용도로 사용할 준비가 되어 있습니다.

사용 사례:
사용 사례: DiffusionGemma 26B A4B IT는 고속 멀티모달 텍스트 생성이 필요한 개발자, 연구자 및 기업을 위해 설계되었습니다. 지원되는 사용 사례에는 대화형 AI 및 챗봇, 텍스트 요약, 코드 생성 및 단계별 추론, 이미지 및 문서 이해 (OCR, 차트 이해, PDF 파싱, 화면 및 UI 파싱), 비디오 콘텐츠 분석, 네이티브 함수 호출을 통한 에이전트 워크플로우 (agentic workflows), 그리고 35개 이상의 언어에 걸친 다국어 NLP 작업이 포함됩니다.
submitted by /u/pmttyji
[link] [comments]

Insights

nvidia/diffusiongemma-26B-A4B-it-NVFP4 · Hugging Face

요약

핵심 포인트

댓글

AI 검색 가시성을 위한 프롬프트 벤치마크 구축 방법

Grok 다운로드 — 유료 플랜의 공통 주간 풀(Weekly Pool) 도입에 따른 제한 사항 변화: 하룻밤 사이에 리소스를 모두 소진하지

40줄의 Python 코드로 LLM 앱을 위한 시맨틱 캐시(Semantic Cache)를 구축하고 비용을 절반으로 절감하는 방법

Ted Benna는 40년 전 401(k)를 만들었지만, 이제는 저소득층 노동자들에게 실패하고 있다며 더 단순한 대안을 제시하고 있다

AI 검색 가시성을 위한 프롬프트 벤치마크 구축 방법

Grok 다운로드 — 유료 플랜의 공통 주간 풀(Weekly Pool) 도입에 따른 제한 사항 변화: 하룻밤 사이에 리소스를 모두 소진하지

40줄의 Python 코드로 LLM 앱을 위한 시맨틱 캐시(Semantic Cache)를 구축하고 비용을 절반으로 절감하는 방법

Ted Benna는 40년 전 401(k)를 만들었지만, 이제는 저소득층 노동자들에게 실패하고 있다며 더 단순한 대안을 제시하고 있다