ai-dynamo/dynamo

참고 (Note)

Day-0 DeepSeek-V4 레시피 사용 가능. DeepSeek-V4-Pro 및 DeepSeek-V4-Flash를 위한 Kubernetes 배포 경로 테스트가 vLLM 및 SGLang 양쪽 모두의 main 브랜치에 병합되었으며, NGC에 사전 구축된 SGLang 컨테이너 이미지가 게시되었습니다.

오픈 소스, 데이터센터 규모의 추론 스택. Dynamo는 추론 엔진 (Inference Engine) 상위의 오케스트레이션 계층 (Orchestration Layer)입니다. 이는 SGLang, TensorRT-LLM 또는 vLLM을 대체하는 것이 아니라, 이들을 조정된 멀티 노드 추론 시스템 (Multi-node Inference System)으로 전환합니다. 분리된 서빙 (Disaggregated Serving), 지능형 라우팅 (Intelligent Routing), 멀티 티어 KV 캐싱 (Multi-tier KV Caching) 및 자동 확장 (Automatic Scaling)이 함께 작동하여 LLM, 추론 (Reasoning), 멀티모달 (Multimodal) 및 비디오 생성 워크로드의 처리량 (Throughput)을 극대화하고 지연 시간 (Latency)을 최소화합니다.

성능을 위한 Rust, 확장성을 위한 Python으로 구축되었습니다.

여러 GPU 또는 노드에 걸쳐 LLM을 서빙하고 있으며 이를 조정해야 하는 경우
중복된 프리필 (Prefill) 계산을 피하기 위해 **KV 인식 라우팅 (KV-aware routing)**이 필요한 경우
프리필과 디코드 (Decode)를 독립적으로 확장 (분리된 서빙, Disaggregated Serving)해야 하는 경우
최소 총 소유 비용 (TCO)으로 지연 시간 SLA를 충족하는 **자동 확장 (Automatic Scaling)**을 원하는 경우
새로운 복제본 (Replica)을 생성할 때 **빠른 콜드 스타트 (Fast cold-starts)**가 필요한 경우

단일 GPU에서 단일 모델을 실행 중이라면, 추론 엔진만으로도 충분할 것입니다.

기능 지원 요약:

기능	SGLang	TensorRT-LLM	vLLM
분리된 서빙 (Disaggregated Serving)	✅	✅	✅
KV 인식 라우팅 (KV-Aware Routing)	✅	✅	✅
SLA 기반 플래너 (SLA-Based Planner)	✅	✅	✅
KVBM	🚧	✅	✅
멀티모달 (Multimodal)	✅	✅	✅
도구 호출 (Tool Calling)	✅	✅	✅

전체 기능 매트릭스 (Full Feature Matrix) → — LoRA, 요청 마이그레이션 (Request Migration), 투기적 디코딩 (Speculative Decoding) 및 기능 간 상호작용.

결과	컨텍스트
GPU당 7배 높은 처리량 (Throughput)	Dynamo를 사용한 GB200 NVL72 상의 DeepSeek R1 vs 사용하지 않은 B200 (InferenceX)
7배 빠른 모델 시작 (Startup)	ModelExpress 가중치 스트리밍 (H200 상의 DeepSeek-V3)
2배 빠른 첫 토큰 생성 시간 (TTFT)	KV-aware 라우팅, Qwen3-Coder 480B (Baseten 벤치마크)
SLA 위반 80% 감소	5% 더 낮은 총 소유 비용 (TCO)에서의 Planner 오토스케일링 (Alibaba APSARA 2025 @ 2:50:00)
750배 높은 처리량 (Throughput)	GB300 NVL72 상의 DeepSeek-R1 (InferenceXv2)

대부분의 추론 엔진 (Inference engine)은 단일 GPU 또는 단일 노드를 최적화합니다. Dynamo는 그 상위의 오케스트레이션 계층 (Orchestration layer) 입니다. 즉, GPU 클러스터를 조정된 추론 시스템으로 변환합니다.

기능 (Capability)	역할	중요성
분리된 프리필/디코딩 (Disaggregated Prefill/Decode)	프리필 (Prefill)과 디코딩 (Decode)을 독립적으로 확장 가능한 GPU 풀로 분리	GPU 활용도 극대화; 각 단계가 해당 워크로드에 최적화된 하드웨어에서 실행됨
KV-Aware 라우팅 (KV-Aware Routing)	워커 부하 및 KV 캐시 중첩을 기반으로 요청을 라우팅	중복된 프리필 계산 제거 — 2배 빠른 TTFT
KV 블록 관리자 (KVBM)	GPU → CPU → SSD → 원격 저장소로 KV 캐시를 오프로딩 (Offload)	GPU 메모리를 초과하는 유효 컨텍스트 길이 확장
ModelExpress	NIXL/NVLink를 통해 GPU 간 모델 가중치를 스트리밍	새로운 레플리카 (Replica)에 대한 콜드 스타트 (Cold-start) 7배 단축
Planner	워크로드를 프로파일링하고 풀 크기를 적절히 조정하는 SLA 기반 오토스케일러	최소한의 총 소유 비용 (TCO)으로 지연 시간 (Latency) 목표 달성
Grove	토폴로지 인식 갱 스케줄링 (Topology-aware gang scheduling, NVL72)을 위한 K8s 오퍼레이터	랙(Rack), 호스트, NUMA 노드 전반에 걸쳐 워크로드를 최적으로 배치
AIConfigurator	1만 개 이상의 배포 구성을 몇 초 만에 시뮬레이션	GPU 사용 시간을 낭비하지 않고 최적의 서빙 구성 탐색
결함 허용 (Fault Tolerance)	카나리 상태 확인 (Canary health checks) + 진행 중인 요청 마이그레이션 (In-flight request migration)	워커가 실패하더라도 사용자 요청은 중단되지 않음

Zero-config deploy (DGDR)(beta): 하나의 YAML 파일에 모델, HW, SLA를 지정하면 AIConfigurator가 워크로드를 자동 프로파일링(auto-profiles)하고, Planner가 토폴로지(topology)를 최적화하며, Dynamo가 배포합니다.Agentic inference: 지연 시간 우선순위(latency priority), 예상 출력 길이, 캐시 고정 TTL(cache pinning TTL)에 대한 요청별 힌트(hints)를 제공합니다. LangChain + NeMo Agent Toolkit 통합 지원Multimodal E/P/D: 임베딩 캐시(embedding cache)를 활용한 분리형 인코딩/프리필/디코딩 (Disaggregated encode/prefill/decode) — 이미지 워크로드에서 TTFT(Time To First Token) 30% 향상Video generation: 네이티브 FastVideo + SGLang Diffusion 지원 — 단일 B200에서 실시간 1080p 구현K8s Inference Gateway plugin: 표준 Kubernetes 게이트웨이 내부에서 KV-aware 라우팅 지원Storage-tier KV offload: S3/Azure blob 지원 + 클러스터 전역 캐시 가시성을 위한 글로벌 KV 이벤트 지원

# 사전 빌드된 컨테이너 가져오기 (SGLang 예시)
docker run --gpus all --network host --rm -it nvcr.io/nvidia/ai-dynamo/sglang-runtime:1.1.1
# 컨테이너 내부 — 프론트엔드 및 워커 시작
...

또한 다음을 사용할 수 있습니다: tensorrtllm-runtime:1.1.1

및 vllm-runtime:1.1.1

uv를 설치한 후 (curl -LsSf https://astral.sh/uv/install.sh | sh)

uv pip install --prerelease=allow "ai-dynamo[sglang]" # 또는 [vllm]

참고: TensorRT-LLM은 --extra-index-url https://pypi.nvidia.com이 포함된 pip가 필요합니다.
.
TRT-LLM 전용 지침은 설치 가이드를 참조하십시오.

그 다음 위에서 보여준 것과 같이 프론트엔드와 워커를 시작하십시오. 시스템 종속성 및 백엔드별 참고 사항은 전체 설치 가이드를 참조하십시오.

프로덕션용 멀티 노드 클러스터의 경우, Dynamo Platform을 설치하고 단일 매니페스트(manifest)로 배포하십시오:

# Zero-config deploy: 모델 + SLA를 지정하면 Dynamo가 나머지를 처리합니다
apiVersion: nvidia.com/v1beta1
kind: DynamoGraphDeploymentRequest
...

일반적인 모델에 대한 사전 빌드된 레시피(recipes):

모델	프레임워크	모드	레시피
Llama-3-70B	vLLM	Aggregated	보기
...
전체 목록은 recipes/를 참조하십시오. 클라우드별 가이드: AWS EKS · Google GKE

로컬에서 빌드 및 개발하고자 하는 기여자를 위한 안내입니다. 자세한 내용은 전체 빌드 가이드를 참조하십시오.

# 시스템 의존성 설치 (Ubuntu 24.04)
sudo apt install -y build-essential libhwloc-dev libudev-dev pkg-config libclang-dev protobuf-compiler python3-dev cmake
# Rust 설치
...

VSCode/Cursor 사용자: 사전 구성된 개발 환경(dev environment)을 위해 .devcontainer를 참조하십시오.

Dynamo는 오픈 소스 우선(OSS-first) 개발 모델을 통해 공개적으로 구축되었습니다. 우리는 모든 종류의 기여를 환영합니다.

Contribution Guide (기여 가이드)— 코드, 문서 및 레시피(recipes) 기여 방법
Design Proposals (설계 제안)— 주요 기능에 대한 RFC
Office Hours (오피스 아워)— 격주 콜
Community Meetings (커뮤니티 미팅)— 매주 (태평양 표준시 기준 수요일 오전 10:30) 개발 커뮤니티 미팅
Discord (디스코드)— 팀 및 커뮤니티와 채팅
Dynamo Day Recordings (Dynamo Day 녹화본)— 실제 사용자들의 심층 분석(Deep dives)

[03/15] Dynamo 1.0 출시 — 강력한 커뮤니티 채택과 함께 프로덕션 준비 완료
[03/15] NVIDIA Blackwell Ultra, MLPerf에서 새로운 추론(inference) 기록 수립
[03/15] NVIDIA Blackwell, SemiAnalysis InferenceMax 벤치마크 선두
[12/05] Moonshot AI의 Kimi K2, GB200 상의 Dynamo를 통해 10배의 추론 속도 향상 달성
[12/02] Mistral AI, Dynamo를 사용하여 Mistral Large 3를 10배 빠른 추론 속도로 실행
[11/20] Dell, 19배 빠른 TTFT(Time To First Token)를 위해 PowerScale을 NIXL과 통합

이전 뉴스

Dynamo는 포괄적인 벤치마킹 도구를 제공합니다:

Benchmarking Guide (벤치마킹 가이드)– AIPerf를 사용하여 배포 토폴로지(deployment topologies) 비교
SLA-Driven Deployments (SLA 기반 배포)– SLA 요구 사항을 충족하도록 배포 최적화

OpenAI 호환 프론트엔드는 /openapi.json에서 OpenAPI 3 스펙을 노출합니다.

서버를 실행하지 않고 생성하려면 다음을 실행하십시오:

cargo run -p dynamo-llm --bin generate-frontend-openapi

이 명령은 docs/reference/api/openapi.json에 작성됩니다.

Dynamo는 컴포넌트 간 통신(inter-component communication)을 위해 TCP를 사용합니다. Kubernetes에서는 네이티브 리소스(CRDs + EndpointSlices)가 서비스 검색(service discovery)을 처리합니다. 대부분의 배포에서 외부 서비스는 선택 사항입니다:

배포 (Deployment)	etcd	NATS	비고 (Notes)
로컬 개발 (Local Development)	❌ 불필요	❌ 불필요	`--discovery-backend file` 옵션 전달; vLLM의 경우 `--kv-events-config '{"enable_kv_cache_events": false}'` 옵션도 필요함
Kubernetes	❌ 불필요	❌ 불필요	K8s 네이티브 검색 (K8s-native discovery); TCP 요청 평면 (TCP request plane)

참고: KV-Aware Routing을 사용하려면 프리픽스 캐싱 조정 (prefix caching coordination)을 위해 NATS가 필요합니다.

Slurm 또는 기타 분산 배포(및 KV-aware routing)의 경우:

두 가지를 빠르게 설정하려면: docker compose -f dev/docker-compose.yml up -d

[11/20] Dell, 19배 빠른 TTFT를 위해 PowerScale을 Dynamo의 NIXL과 통합
[11/20] WEKA, Dynamo의 KV 캐시 스토리지를 위해 NVIDIA와 파트너십 체결
[11/13] Dynamo Office Hours 재생 목록
[10/16] Baseten이 NVIDIA Dynamo를 통해 어떻게 2배 빠른 추론을 달성했는가
[12/01] InfoQ: NVIDIA Dynamo가 LLM 추론을 위한 Kubernetes 배포를 단순화함

지원 매트릭스 (Support Matrix)— 하드웨어, OS, CUDA 및 백엔드 버전
기능 매트릭스 (Feature Matrix)— 상세 백엔드 호환성
릴리스 아티팩트 (Release Artifacts)— 컨테이너, wheels, Helm 차트
서비스 검색 (Service Discovery)— K8s 네이티브 vs etcd vs 파일 기반 검색
벤치마킹 가이드 (Benchmarking Guide)— AIPerf를 사용한 배포 토폴로지 비교

ai-dynamo/dynamo

요약

핵심 포인트

이전 뉴스

댓글