nvidia/Gemma-4-26B-A4B-NVFP4
요약
이 기술 기사는 NVIDIA의 Gemma-4-26B 모델을 NVFP4 양자화 방식을 적용하여 테스트한 결과를 보여줍니다. 이 최적화된 버전은 5090 GPU 환경에서 약 18.8GB 용량으로 50k 컨텍스트를 처리할 수 있음을 확인했습니다. 다양한 학술 및 코딩 벤치마크(GPQA, AIME, MMLU Pro 등)에서 기준선 대비 성능 저하가 미미하거나 오히려 개선된 결과를 보여주며, 효율성과 성능을 동시에 확보했음을 입증합니다.
핵심 포인트
- NVFP4 양자화 기법을 적용하여 Gemma-4-26B 모델의 크기를 18.8GB로 최적화했습니다.
- 5090 GPU 환경에서 약 32GB 메모리의 80%를 할당하여 50k 컨텍스트 처리가 가능합니다.
- 주요 벤치마크(AIME, IFBench 등)에서 기준선 대비 성능 저하가 거의 없거나 소폭 개선되는 우수한 효율성을 보였습니다.
- 이 결과는 대규모 언어 모델을 메모리 제약 환경에서도 높은 성능으로 구동할 수 있는 실질적인 방법을 제시합니다.
- 5090 에서 작동함을 확인했습니다. 32GB 중 80% 할당 시 약 50k 컨텍스트를 얻었습니다.
- 용량은 18.8GB 입니다.
| 벤치마크 | 기준선 (정밀도) | NVFP4 |
|---|---|---|
| GPQA Diamond | 80.30% | 79.90% |
| AIME 2025 | 88.95% | 90.00% |
| MMLU Pro | 85.00% | 84.80% |
| LiveCodeBench (pass@1) | 80.50% | 79.80% |
| IFBench | 77.77% | 78.1% |
| IFEval | 96.60% | 96.40% |
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기