r/LocalLLaMA분석2026. 06. 27. 06:11

Nemotron-3-Super-120B-A12B (hybrid Mamba+MoE)가 4×3090 환경에서 504K 토큰까지 완벽한 Needle

요약

NVIDIA의 Nemotron-3-Super-120B-A12B 모델이 hybrid Mamba와 MoE 구조를 통해 504K 토큰의 긴 컨텍스트에서도 높은 성능을 유지함을 입증했습니다. Mamba 레이어의 특성상 KV 캐시 비용이 적어 긴 문맥에서도 디코딩 속도가 안정적이며, Needle-in-haystack 테스트에서 완벽한 회상 능력을 보여주었습니다.

핵심 포인트

Mamba/SSM 레이어 활용으로 KV 캐시 비용 최소화 및 긴 컨텍스트 유지
504K 토큰 범위 내에서 Needle-in-haystack 테스트 완벽 성공
Full-attention 모델 대비 긴 컨텍스트에서 압도적인 디코딩 속도 유지
긴 컨텍스트 사용 시 최신성 편향(Recency Bias) 주의 필요

요약(TLDR): Mamba/SSM 레이어는 계속 커지는 KV 캐시 (KV cache) 대신 일정한 크기의 순환 상태 (recurrent state)를 유지하므로, 컨텍스트 (context) 비용이 거의 들지 않습니다. 50만 토큰에서 완전한 Needle Retrieval (바늘 찾기)이 가능하며, 전체가 GPU 상에서 구동되고 약 71GB를 사용합니다. 새로운 imatrix gguf는 여기에서 확인하세요: https://huggingface.co/mradermacher/NVIDIA-Nemotron-3-Super-120B-A12B-BF16-i1-GGUF/resolve/main/NVIDIA-Nemotron-3-Super-120B-A12B-BF16.i1-Q4_K_S.gguf

단독 설정, 로컬 전용. mradermacher의 i1-Q4_K_S (71GB) 버전으로 NVIDIA의 Nemotron-3-Super (nemotron_h: hybrid Mamba2 + periodic attention + MoE, A12B 활성, 1M 컨텍스트 학습됨)를 가져와 4×3090에서 실행했습니다.

수치 (llama.cpp-latest, i1-Q4_K_S, 완전 GPU 상주, q8_0 KV)

디코딩 (Decode, t/s): 짧은 문장 72tg · 30K 67tg · 96K 51tg · 126K 47tg · 200K 39tg · 269K 34tg · 504K 23tg
프리필 (Prefill, t/s): ~2080pp 30K · 1469pp 200K · 885pp 504K
Needle-in-haystack (건초더미 속 바늘, 10/50/90% 깊이에 코드 삽입): 테스트된 모든 깊이에서 최대 504,482 토큰까지 정확한 회상 (exact recall) 성공. 누락 없음.
VRAM: 카드당 약 20GB

Full-attention 모델은 컨텍스트와 함께 커지는 KV 캐시 비용을 지불해야 하므로, 컨텍스트가 채워질수록 디코딩 속도가 급락합니다. Nemotron의 Mamba 레이어는 고정된 크기의 상태를 유지하며, 오직 소수의 어텐션 (attention) 레이어만이 KV를 가집니다 (2개의 KV 헤드, 매우 작음). 결과적으로: 500K에서의 디코딩 (23 t/s)은 동일한 박스/엔진에서 유사한 full-attention MoE (MiniMax-M2.7-REAP, 역시 약 74GB, A10B)가 30K에서 보여준 속도 (24.5 t/s)와 비슷합니다. 동일 박스에서의 직접 비교: Nemotron은 30K 기준 디코딩 속도가 약 2.7배 더 빠르며 500K까지 정밀도를 유지했습니다.

매몰된 지침 (Buried standing instructions)은 나중에 나오는 상충하는 지침에 밀립니다 (최신성 편향, recency bias) — 상단 근처에 심어둔 "동결된 계약 (frozen contract)"이 마지막에 제가 모순되는 내용을 말했을 때 뒤집혔습니다. 엄격한 규칙은 긴 컨텍스트 중간에 묻어두지 말고, 끝부분이나 시스템 (system) 프롬프트 근처에 배치하세요.

submitted by /u/Important_Quote_1180
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Nemotron-3-Super-120B-A12B (hybrid Mamba+MoE)가 4×3090 환경에서 504K 토큰까지 완벽한 Needle

요약

핵심 포인트

수치 (llama.cpp-latest, i1-Q4_K_S, 완전 GPU 상주, q8_0 KV)

댓글