Nemotron-3-Super 기반 수학 추론 LLM 공개: AIME 2026에서 90%+ 성능 달성
요약
본 게시물은 NVIDIA의 Nemotron-3-Super-120B 모델을 기반으로 수학 추론 능력을 극대화한 경량화 LLM 버전을 공개합니다. 이 모델은 REAP(pruning) 기법을 통해 전문가 수를 512개에서 256개로 줄이고, AIMO3 및 AstralMath 문제에 GRPO (Guided Reinforcement Policy Optimization)를 적용하여 파인튜닝되었습니다. 최종적으로 AWQ 또는 FP8 양자화를 거쳐 메모리 효율성을 높였으며, 그 결과 단일 H100/RTX PRO 6000 Blackwell GPU로
핵심 포인트
- Nemotron-3-Super-120B를 기반으로 전문가 수를 512개에서 256개로 줄인 REAP(pruning) 모델을 공개했습니다.
- AIMO3 및 AstralMath 문제에 GRPO (Guided Reinforcement Policy Optimization) 파인튜닝을 적용하여 수학 추론 능력을 강화했습니다.
- 최종 경량화 모델은 AWQ 또는 FP8 양자화를 통해 각각 43GB, 72GB VRAM으로 메모리 효율성을 확보했으며, 단일 H100/RTX PRO 6000 Blackwell에서 구동 가능합니다.
- AIME 2026 벤치마크 결과, FP8 버전이 평균 정답률(avg@4) 0.9167, 통과율(pass@4) 0.9667을 기록하며 기존 120B 모델 대비 우수한 성능을 보였습니다.
본 자료는 NVIDIA의 Nemotron-3-Super-120B (latent MoE + Mamba2 하이브리드 구조)를 기반으로 수학 및 논리 추론 능력을 극대화한 경량화 LLM 버전을 소개합니다. 이 모델은 AIMO3(Kaggle 대회) 기간 동안 개발되었으며, 고성능 컴퓨팅 환경에서도 효율적으로 구동되도록 최적화되었습니다.
🛠️ 모델 최적화 및 파인튜닝 과정
- REAP Pruning: 초기 Nemotron-3-Super는 512개의 전문가(experts)를 가졌으나, 이를 REAP 기법을 사용해 256개로 줄였습니다 (MTP 레이어 제거 포함). 이 과정을 통해 모델 크기를 효과적으로 축소하면서도 성능 저하를 최소화했습니다.
- GRPO Fine-tuning: AIMO3 및 AstralMath와 같은 수학적 문제 세트 약 270개를 사용하여 GRPO (Guided Reinforcement Policy Optimization) 방식으로 파인튜닝을 진행하여, 모델의 추론 정확도를 높였습니다.
- 양자화 (Quantization): 최종적으로 AWQ(W4A16) 및 FP8(W8A8) 양자화를 적용하여 메모리 사용량을 획기적으로 줄이고 배포 가능성을 높였습니다.
🚀 성능 및 효율성
- 모델 크기 변화: 초기 120B 모델에서 경량화된 버전은 약 64B 수준으로 축소되었습니다. (BF16 기준)
- 구동 환경: 단일 H100 또는 RTX PRO 6000 Blackwell GPU에서도 구동 가능합니다.
- AIME 2026 벤치마크 (30문제, 평균 4회 시도):
- 기존 120B 베이스 모델: avg@4 0.9000
- AWQ 버전: avg@4 0.9083, pass@4 0.9333
- FP8 버전: avg@4 0.9167, pass@4 0.9667
벤치마크 결과에 따르면, FP8 양자화 모델이 가장 높은 성능을 보여주었습니다. 비록 이 테스트가 도구 사용(tool use) 없이 진행되었지만, 해당 모델은 Python 도구가 통합된 추론에서도 뛰어난 능력을 입증했습니다.
⚖️ AWQ vs FP8 트레이드오프
FP8은 AWQ 대비 약 40% 낮은 토큰/초(tokens/s) 처리량(throughput)을 보이지만, 최종 품질(quality) 면에서 우위를 점했습니다. 특히 pass@4에서 추가 문제를 해결했으며, 가장 어려운 문제에서도 더 나은 수치 계산 능력을 보여주었습니다. 또한 FP8이 답에 도달하는 속도(convergence speed)가 빨라 전반적인 성능 저하를 상쇄합니다.
⚠️ 기술적 참고 사항 (vLLM Patch)
사용된 vLLM 라이브러리의 grouped_topk CUDA 커널은 전문가 그룹 크기가 128을 초과할 경우 메모리 접근 오류(illegal memory access)를 일으킬 수 있습니다. 본 모델 구조(전문가 256개, n_group=1)의 경우 해당 커널이 충돌하므로, 이를 우회하는 작은 패치 코드가 포함되어 배포되었습니다.
결론적으로, 이 경량화된 Nemotron-3-Super는 MoE 기반 LLM의 높은 추론 능력을 유지하면서도 메모리 효율성과 구동 용이성을 극대화한 최적화된 모델입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기