Reddit요약2026. 05. 16. 13:24

NVIDIA AI, Zero-Shot Slicing을 통해 30B, 23B, 12B 추론 모델을 포함하는 단일 체크포인트인 Star

요약

NVIDIA가 Star Elastic이라는 혁신적인 모델을 출시했습니다. 이 모델은 단일 체크포인트 내에 30B, 23B, 12B 등 여러 크기의 중첩된(nested) 추론 모델을 포함하며, Zero-Shot Slicing 기술을 활용합니다. 이는 마치 가변 비트레이트 비디오 코딩처럼 필요에 따라 모델의 규모를 동적으로 조절하여 '사고' 단계에는 작은 모델을, 최종 '답변' 단계에는 큰 모델을 할당함으로써 성능과 효율성을 극대화합니다. 이러한 탄력적 예산 제어(Elastic budget control) 덕분에 표준 방식 대비 정확도가 16% 향상되고 지연 시간은 1.9배 감소하는 등 상당한 이점을 얻었으며, 메모리 제약이 있는 하드웨어에서도 높은 처리량을 달성할 수 있습니다.

핵심 포인트

단일 체크포인트에 여러 크기의 모델(30B, 23B, 12B)를 중첩하여 포함하는 Star Elastic 구조를 구현했습니다.
가변 비트레이트 코딩과 유사하게, 추론 단계의 복잡도(사고 vs. 답변)에 따라 최적화된 서브모델을 동적으로 할당합니다 (Elastic budget control).
학습 가능한 라우터는 가중치뿐만 아니라 아키텍처 전반의 파라미터 예산을 최적의 중첩 구성으로 매핑합니다.
이 기술은 정확도를 향상시키고 지연 시간을 크게 줄이는 동시에, 개별 모델을 처음부터 학습하는 것 대비 비용 효율성이 매우 높습니다.
12B NVFP4 변형 모델은 메모리 부족 현상이 발생하는 저사양 GPU에서도 높은 처리량을 보여 하드웨어 접근성을 높였습니다.

다른 서브레딧에서 이것을 보았는데 여기에는 게시되지 않은 것 같아 가져왔습니다. 정말 멋져 보이고, 확실히 로컬(local)에서 실행할 수 있을 것 같습니다. 아마 11일 전에 출시된 것 같은데, 제가 (너무 자주 확인하는) 피드 상단에는 올라오지 않아서 다시 게시합니다.

이에 대한 제 견해는 다음과 같습니다:

이것을 가변 비트레이트 비디오 코딩(scalable video coding)과 같다고 생각하면 됩니다. UHD 스트림이 있지만, 일부 레이어를 제거하면 HD 또는 SD 스트림이 되는 것과 같습니다. 여러 개의 파일이 아니라 모두 단일 파일 스트림입니다.

3개의 서로 다른 세트가 아니라 중첩된 모델(nested models)과 같으며, KV 캐시(KV cache)를 공유할 수 있어 모델이 슬라이딩 스케일(sliding scale)처럼 속도를 조절할 수 있습니다. 30B 모델로 아이디어를 얻은 다음, 규모를 줄여 12B 모델에서 초당 7000토큰(7000t/s)의 속도로 모든 사고 과정을 순열(permutate)하여 몇 초 만에 추론 서적을 생성하고, 다시 30B로 올려 무엇이 좋은지 평가할 수 있습니다. 30B 모델이 더 작은 모델들을 앞뒤로 가이드할 수도 있을 것입니다.

아마도 Dense 모델과 MoE(Mixture of Experts) 사이의 일종의 하이브리드일 수도 있습니다. 러시아 인형(russian dolls)처럼 3개의 Dense 모델이 들어있는 MoE와 비슷합니다.

원문 게시글:

NVIDIA가 방금 Star Elastic을 출시했습니다. 추론(inference) 전략만으로도 이해할 가치가 있습니다.

기술적인 측면에서 실제로 흥미로운 점은 다음과 같습니다:

하나의 체크포인트. 세 개의 모델.

Star Elastic은 Nemotron Nano v3에 사후 학습(post-training) 방법을 적용하여, 30B 부모 체크포인트로부터 23B 및 12B 서브모델을 Zero-Shot으로 추출할 수 있도록 중첩시킵니다. 세 모델 모두 BF16, FP8, NVFP4 형식의 단일 체크포인트 내에 존재합니다.

라우터(router)는 가중치(weights)뿐만 아니라 아키텍처(architecture)를 학습합니다.

Gumbel-Softmax를 통해 학습된 학습 가능한 라우터(learnable router)는 어텐션 헤드(attention heads), Mamba SSM 헤드, MoE 전문가(experts), FFN 채널, 임베딩 차원(embedding dimensions) 등 모든 탄력적 축(elastic axes)에 걸쳐 대상 파라미터 예산(parameter budget)을 최적의 중첩 구성으로 매핑합니다. 이러한 구성 요소들의 순서를 정하는 중요도 기반 순위(importance-based ranking)는 학습이 시작되기 전에 계산됩니다.

사고(thinking)에는 더 작은 모델을 사용하십시오. 답변에는 전체 모델을 사용하십시오.

이것은 우리가 가장 흥미롭다고 발견한 결과입니다. 탄력적 예산 제어 (Elastic budget control)는 사고 (thinking) 단계에는 23B 서브모델을 할당하고, 최종 답변에는 30B 모델을 할당합니다. 추론 흔적 (Reasoning traces)은 데이터 양은 많지만 낮은 용량에도 잘 견딥니다. 최종 답변은 데이터 양은 적지만 정밀함을 요구합니다. 모델 크기를 단계별 복잡도에 맞춤으로써 다음과 같은 결과를 얻었습니다:

→ 표준 예산 제어 대비 정확도(accuracy) +16%

→ 지연 시간(latency) 1.9배 감소

AIME-2025, GPQA, LiveCodeBench v5, 그리고 MMLU-Pro에서 측정되었습니다.

비용 절감이 상당합니다.

→ 각 변형 모델을 처음부터 사전 학습 (pretraining)하는 것 대비 토큰(token) 360배 감소

→ 최첨단 순차적 압축 (sequential compression) 기술 대비 토큰 7배 감소

→ 23B 및 12B 중첩 모델은 유사한 크기의 독립적으로 학습된 베이스라인 (baselines)과 대등하거나 이를 능가하는 성능을 보임

하드웨어 접근성.

12B NVFP4 변형 모델은 모든 BF16 설정이 메모리 부족(out of memory)을 일으키는 RTX 5080에서도 실행됩니다. RTX Pro 6000에서는 초당 7,426 토큰에 도달하며, 이는 30B BF16 베이스라인 처리량(throughput)의 3.4배입니다.

단계별 대화형 코드 가이드가 포함된 전체 분석 내용은 여기에서 읽을 수 있습니다: https://www.marktechpost.com/2026/05/09/nvidia-ai-releases-star-elastic-one-checkpoint-that-contains-30b-23b-and-12b-reasoning-models-with-zero-shot-slicing/

BF16 버전 3-in-1 모델: https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-BF16

FP8 버전 3-in-1 모델: https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-FP8

NVFP4 버전 3-in-1 모델: https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-NVFP4

NVIDIA AI, Zero-Shot Slicing을 통해 30B, 23B, 12B 추론 모델을 포함하는 단일 체크포인트인 Star

요약

핵심 포인트

이에 대한 제 견해는 다음과 같습니다:

원문 게시글:

댓글