Nvidia Cosmos 3

NVIDIA Cosmos 3는 물리 AI를 위한 단일 오픈 기반 모델로, 물리 추론·월드 생성·행동 생성을 하나의 모델 안에서 결합함
Mixture-of-Transformers 구조는 Reasoner tower와 Generator tower를 나눠 입력 이해와 물리 인식 생성 출력을 연결하며, 여러 모델과 추론 파이프라인을 조율할 필요를 줄임
Cosmos 3 Nano는 16B 파라미터로 워크스테이션급 추론을 겨냥하고, Cosmos 3 Super는 64B 파라미터로 데이터센터 배포와 고품질 합성 데이터 생성을 겨냥함

NVIDIA는 모델 체크포인트, 학습 스크립트, 배포 도구, 여섯 개 합성 데이터셋, NIM 마이크로서비스를 공개해 로보틱스·자율주행·창고 자동화 도메인 적응을 지원함
HUE와 여러 공개 벤치마크에서 Cosmos 3는 물리 AI 추론·생성 품질·도메인 성능을 평가받으며, Super와 Nano가 VANTAGE-Bench의 32B·8B 티어에서 각각 선두를 보임

Cosmos 3의 핵심 변화

NVIDIA Cosmos 3는 로봇, 자율주행차, 스마트 공간 같은 물리 AI 시스템이 세계를 이해하고 다음 상황을 예측하며 특정 환경·형태·작업에 맞는 행동을 생성하도록 설계된 프런티어 기반 모델임
이전 Cosmos 릴리스는 월드 생성, 물리 이해, 제어된 장면 생성을 서로 다른 모델과 워크플로로 분리했지만, Cosmos 3는 이를 하나의 모델로 통합함
이번 릴리스는 Hugging Face의 모델 체크포인트, GitHub의 코드, 공개 데이터셋, 후속 학습 스크립트, NVIDIA GPU 배포용 Cosmos NIM 마이크로서비스를 제공함

두 타워 구조

Cosmos 3는 두 개의 타워를 중심으로 한 Mixture-of-Transformers 구조를 사용함
Reasoner tower는 이미지, 비디오, 텍스트 같은 멀티모달 관찰을 해석하는 비전-언어 모델(VLM)이며, 자기회귀 구조로 입력을 해석하고 움직임, 객체 상호작용, 물리적 맥락을 이해함
Generator tower는 Reasoner tower의 이해를 조건으로 물리 인식 비디오와 행동 출력을 확산 기반 과정으로 생성함
Reasoner는 독립적으로 호출할 수 있지만, Generator는 안내된 생성을 위해 항상 두 타워를 모두 활성화함
이 구조는 추론과 생성 작업을 단일 모델에서 처리해 여러 모델과 추론 파이프라인 사이의 오케스트레이션을 줄임

모델 크기 선택

Cosmos 3 Nano는 16B 파라미터의 컴팩트 모델이며, 효율적인 추론에 최적화돼 있음

Nano는 NVIDIA RTX PRO 6000 GPU 같은 워크스테이션급 컴퓨트에서 실시간 로보틱스 추론과 물리 AI 애플리케이션을 실행하도록 설계됨
Cosmos 3 Super는 64B 파라미터 모델이며, 최대 품질과 기능을 목표로 함
Super는 가장 높은 벤치마크 점수를 제공하며 NVIDIA Hopper와 NVIDIA Blackwell GPU 기반 데이터센터 배포를 겨냥함
Super는 대규모 합성 데이터 생성과 고급 물리 추론 워크로드에 적합함

공개 데이터셋

NVIDIA는 Cosmos 3 릴리스와 함께 Hugging Face에 여섯 개 합성 데이터 생성(SDG) 데이터셋을 공개함
이 데이터셋들은 Cosmos 3와 다른 모델의 후속 학습에 사용할 수 있으며, 로보틱스, 물리 시뮬레이션, 공간 추론, 인간 동작, 주행, 창고 환경을 다룸
공개 데이터셋:

HUE 평가 프레임워크

NVIDIA Cosmos Human Evaluation(HUE)은 대표 도메인 작업에서 Cosmos 3 Generator의 품질을 평가함
최신 비디오 생성 모델들이 기존 자동 리더보드에서 포화되면서 릴리스 간 점수 차이가 의미 있는 비교에 충분하지 않은 경우가 많아짐
HUE는 주관적 채점 대신 객관적 사실 검증으로 평가를 바꾸며, 상위 모델 사이의 세밀한 비교를 가능하게 함
HUE는 생성 비디오를 네 가지 차원에 걸친 단일 사실 yes/no 질문으로 분해함
의미 정렬
물리 법칙
기하 추론
시각적 무결성
질문은 로보틱스, 자율주행차, 물리 등 일곱 개 Physical AI 도메인을 포괄함
질문은 VLM 파이프라인으로 생성되고 인간 전문가가 정제하며, Hugging Face에 오픈소스로 공개됨

벤치마크 결과

Cosmos 3는 물리 AI 추론, 생성 품질, 도메인별 성능을 다루는 여러 벤치마크 제품군에서 평가됨
추론 벤치마크에서 Cosmos 3 Super와 Cosmos 3 Nano는 VANTAGE-Bench의 32B 티어와 8B 티어에서 각각 선두를 기록함
VANTAGE-Bench는 창고, 교통, 스마트 공간의 실제 고정 카메라 영상을 대상으로 비전-언어 모델을 평가하는 첫 공개 벤치마크임
Traffic Anomaly Reasoning(TAR)은 교통 영상에서 이상 이벤트를 탐지하고 추론하는 새 리더보드이며 AI City Challenge 2026 Track 3의 공식 리더보드임
생성 벤치마크에서 Cosmos 3는 공개 리더보드 기준 오픈소스 SOTA이며 PAI-Bench, R-Bench Physics-IQ, RoboLab에서 선두를 보임
Artificial Analysis에서는 Cosmos 3가 Text to Image leaderboard와 Image to Video (no audio) leaderboard에서 선두 오픈소스 모델로 평가됨
R-Bench는 로봇 비디오 생성에서 비디오 기반 월드 모델을 평가하며, 구조적 일관성, 물리적 타당성, 실행 완성도 같은 하위 지표를 사용함
PAI-Bench는 로보틱스, 자율주행차, 물리 상식 같은 도메인에서 비디오 이해와 비디오 생성을 평가함
Physics-IQ는 생성 비디오 모델이 시각적 사실성만 달성하는지, 실제 물리 원리를 이해하는지 테스트함
RoboLab은 작업 일반화 로봇 정책을 평가하는 시뮬레이션 벤치마크임

학습 레시피와 도메인 적응

Cosmos 3 릴리스는 모델 체크포인트를 넘어 코드, 설정, 워크플로를 공개해 새 도메인, 형태, 데이터셋에 모델을 적응시킬 수 있게 함
지도 미세조정(SFT)은 개발자가 Cosmos 3 모델을 자체 데이터에 맞게 조정하도록 지원함
공개 레시피는 커스텀 비디오 데이터셋을 위한 비전 생성 후속 학습과 로보틱스·물리 AI 워크플로를 위한 행동 중심 레시피를 다룸
개발자는 로보틱스, 자율주행, 창고 자동화 목표 도메인에 맞게 Cosmos 3를 커스터마이즈할 수 있음
후속 학습 코드와 설정은 GitHub에서 제공됨
행동 후속 학습은 Cosmos 3를 forward dynamics, inverse dynamics, policy generation 같은 행동 인식 Physical AI 애플리케이션에 맞게 조정함
로보틱스에서는 로봇 행동을 조건으로 미래 관찰을 생성하고, 관찰된 시연 뒤의 행동을 추론하고, 현재 관찰과 작업 프롬프트에서 행동 시퀀스를 예측하는 워크플로를 지원함

NIM 마이크로서비스 배포

Cosmos 3 모델은 최적화된 프로덕션 배포를 위해 NVIDIA NIM microservices로도 제공됨
NIM 마이크로서비스는 모델과 최적화된 추론 런타임을 패키징해 서빙 인프라를 직접 튜닝하지 않아도 높은 성능을 내도록 함
추론 워크플로에서는 NIM 마이크로서비스가 Cosmos 3 GitHub 저장소보다 사용하기 쉽고, GitHub 저장소는 후속 학습 워크플로에 더 적합함
Cosmos 3 Reasoner NIM은 현재 Cosmos 3 모델의 추론 기능을 제공함
NIM은 BF16, FP8, NVFP4 양자화 체크포인트 선택을 지원함
NVFP4 양자화는 모델의 수치 정밀도를 BF16에서 4비트 부동소수점으로 낮춰 최대 2배 추론 속도 향상을 달성함
Cosmos 3 Reasoner NIM 서빙 스택은 vLLM을 기반으로 하며, vLLM은 continuous batching, paged attention, tensor parallelism 같은 기법으로 LLM을 효율적으로 서빙하는 오픈소스 추론 엔진임
Cosmos 3 Nano는 vLLM-omni와 NVIDIA Dynamo로 실행할 수 있음
Efficient Video Sampling(EVS)은 추론 중 VLM에 입력되는 비디오 토큰 수를 줄여 Cosmos Reason NIM 속도를 높임
EVS는 프레임마다 가장 고유한 청크를 유지하고 나머지를 가지치기하며, 작은 GPU일수록 이 기법의 이점이 더 큰 경향을 보임

실행 방법

컨테이너를 가져오고 NGC에서 Cosmos 3 모델을 다운로드하려면 NVIDIA NGC API 키가 필요함
Cosmos 3 Nano Reasoner NIM 실행 예시는 다음과 같음
Cosmos 3 Super Reasoner NIM을 사용하려면
NIM_MODEL_SIZE=super

를 지정함

docker run --gpus=all \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:latest

API 사용법과 추가 정보는 문서에서 확인할 수 있음