Reddit요약2026. 05. 09. 07:10

The GB10 Solution Atlas is now open source, the inference engine made for the

요약

새롭게 오픈 소스로 공개된 Atlas는 LLM 추론 엔진으로, 기존의 Python 기반 스택 병목 현상을 해결하기 위해 전체 스택을 재작성했습니다. Pure Rust와 CUDA만을 사용하여 vLLM 대비 최대 3배 이상의 높은 처리량(throughput)을 달성하며, 특히 DGX Spark (GB10) 환경에서 Qwen3.5-35B 모델의 경우 지속적으로 약 111 tok/s를 기록하는 등 뛰어난 성능을 보여줍니다. 이 엔진은 다양한 최신 LLM 아키텍처와 API를 지원하며, 커뮤니티 기여를 통해 계속 발전할 예정입니다.

핵심 포인트

Atlas는 Pure Rust + CUDA로 구현되어 Python 런타임 및 일반적인 스택 병목 현상을 제거했습니다.
DGX Spark (GB10) 환경에서 Qwen3.5-35B 모델을 vLLM 대비 최대 3배 높은 처리량으로 구동할 수 있습니다.
Attention, MoE, Mamba-2 등 최신 아키텍처에 맞춰 손으로 튜닝된 CUDA 커널을 사용합니다.
Multi-Token Prediction (MTP)과 같은 고급 기술을 활용하여 디코딩 성능을 극대화했습니다.
다양한 LLM 모델(Qwen3.6, Gemma, Minimax2.7 등) 및 API를 지원하며, 개발자 커뮤니티의 기여가 필수적입니다.

몇 주 전 DGX Spark 에서 Qwen3.5-35B 에 102 tok/s 를 안정적으로 달성한 게시물을 보셨나요? 많은 분들이 "좋네, 코드가 어디있죠?"라고 물었습니다. 오늘 그 날입니다: Github

Atlas 는 오픈 소스입니다. Pure Rust + CUDA, PyTorch 없음, Python runtime 없음, ~2.5 GB 이미지, <2 분 cold start. Spark 의 병목은 실리콘이 아니라, 프롬프트와 GPU 사이에 있는 20+ GB 의 일반적 Python 기구였기 때문에 HTTP handler 에서 kernel dispatch 까지 전체 스택을 다시 작성했습니다. Atlas 를 개발자를 위해 계속 발전시키려면 커뮤니티 지원이 필요합니다.

단일 DGX Spark (GB10) 의 수치:

Qwen3.5-35B (NVFP4, MTP K=2): 130 tok/s peak, ~111 tok/s sustained → 테스트 시간 기준 vLLM 대비 3.0–3.3x

Qwen3.5-122B (NVFP4, EP=2): ~50 tok/s decode

Qwen3-Next-80B-A3B (NVFP4, MTP): ~87 tok/s

Nemotron-3 Nano 30B (FP8): ~88 tok/s

사이트에 전체 모델 행렬이 있습니다 (Minimax2.7, Qwen3.6, Gemma 포함!)

실제로 다른 점:

Blackwell SM120/121 에 대한 손으로 튜닝된 CUDA 커널을 의미합니다 attention, MoE, GDN, Mamba-2. 일반적 fallback 없음.

Tensor cores 에서 Native NVFP4 + FP8

MTP (Multi-Token Prediction) speculative decoding 을 사용하여 decode 에서 최대 3x throughput

OpenAI + Anthropic API 를 같은 포트로, Claude Code, Cline, OpenCode, Open WebUI 와 바로 작동합니다

사용해 보세요 (두 명령어):

docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
  --port 8888 --speculative --enable-prefix-caching

다음 단계 특히 Spark 의 비에 대해: Spectral Compute 와 Strix Halo 포트를 함께 작업하고 있으며, AMD 는 이를 제대로 수행하기 위한 하드웨어를 제공합니다. RTX 6000 Pro Blackwell 도 로드맵에 있습니다. 같은 커널 철학, 칩마다 적응하며, 네 개의 칩을 잘하는 것을 열두 개의 칩을 나쁘게 하는 것보다 더 선호합니다.

X/Twitter
Site
Discord

일整天 동안 댓글에 있을 것입니다. edge cases, weird models, broken configs 와 함께 해주세요. 로드맵은 진정으로 커뮤니티 주도입니다. MiniMax M2.7 이 착륙한 것은 Discord 의 누군가가 물어본 때문입니다.

AI 자동 생성 콘텐츠

원문 바로가기