nvidia/Gemma-4-26B-A4B-NVFP4

요약

이 기술 기사는 NVIDIA의 Gemma-4-26B 모델을 NVFP4 양자화 방식을 적용하여 테스트한 결과를 보여줍니다. 이 최적화된 버전은 5090 GPU 환경에서 약 18.8GB 용량으로 50k 컨텍스트를 처리할 수 있음을 확인했습니다. 다양한 학술 및 코딩 벤치마크(GPQA, AIME, MMLU Pro 등)에서 기준선 대비 성능 저하가 미미하거나 오히려 개선된 결과를 보여주며, 효율성과 성능을 동시에 확보했음을 입증합니다.

핵심 포인트

NVFP4 양자화 기법을 적용하여 Gemma-4-26B 모델의 크기를 18.8GB로 최적화했습니다.
5090 GPU 환경에서 약 32GB 메모리의 80%를 할당하여 50k 컨텍스트 처리가 가능합니다.
주요 벤치마크(AIME, IFBench 등)에서 기준선 대비 성능 저하가 거의 없거나 소폭 개선되는 우수한 효율성을 보였습니다.
이 결과는 대규모 언어 모델을 메모리 제약 환경에서도 높은 성능으로 구동할 수 있는 실질적인 방법을 제시합니다.

5090 에서 작동함을 확인했습니다. 32GB 중 80% 할당 시 약 50k 컨텍스트를 얻었습니다.
용량은 18.8GB 입니다.

벤치마크	기준선 (정밀도)	NVFP4
GPQA Diamond	80.30%	79.90%
AIME 2025	88.95%	90.00%
MMLU Pro	85.00%	84.80%
LiveCodeBench (pass@1)	80.50%	79.80%
IFBench	77.77%	78.1%
IFEval	96.60%	96.40%

AI 자동 생성 콘텐츠

원문 바로가기

nvidia/Gemma-4-26B-A4B-NVFP4

요약

핵심 포인트

댓글