Nvidia Cosmos 3
요약
NVIDIA Cosmos 3는 물리적 추론, 월드 생성, 행동 생성을 하나의 모델로 통합한 물리 AI용 오픈 기반 모델입니다. Mixture-of-Transformers 구조를 통해 입력 이해와 물리적 출력을 효율적으로 연결하며, 로보틱스와 자율주행 분야의 도메인 적응을 지원합니다.
핵심 포인트
- Reasoner와 Generator 타워를 결합한 Mixture-of-Transformers 구조 채택
- 16B Nano 모델과 64B Super 모델로 구성되어 워크스테이션 및 데이터센터 타겟팅
- Hugging Face를 통해 모델 체크포인트, 학습 스크립트, 6종의 합성 데이터셋 공개
- 객관적 사실 검증 중심의 새로운 평가 프레임워크 HUE 도입
NVIDIA Cosmos 3는 물리 AI를 위한 단일 오픈 기반 모델로, 물리 추론·월드 생성·행동 생성을 하나의 모델 안에서 결합함
Mixture-of-Transformers 구조는 Reasoner tower와 Generator tower를 나눠 입력 이해와 물리 인식 생성 출력을 연결하며, 여러 모델과 추론 파이프라인을 조율할 필요를 줄임
Cosmos 3 Nano는 16B 파라미터로 워크스테이션급 추론을 겨냥하고, Cosmos 3 Super는 64B 파라미터로 데이터센터 배포와 고품질 합성 데이터 생성을 겨냥함
- NVIDIA는 모델 체크포인트, 학습 스크립트, 배포 도구, 여섯 개 합성 데이터셋, NIM 마이크로서비스를 공개해 로보틱스·자율주행·창고 자동화 도메인 적응을 지원함
HUE와 여러 공개 벤치마크에서 Cosmos 3는 물리 AI 추론·생성 품질·도메인 성능을 평가받으며, Super와 Nano가 VANTAGE-Bench의 32B·8B 티어에서 각각 선두를 보임
Cosmos 3의 핵심 변화
- NVIDIA Cosmos 3는 로봇, 자율주행차, 스마트 공간 같은 물리 AI 시스템이 세계를 이해하고 다음 상황을 예측하며 특정 환경·형태·작업에 맞는 행동을 생성하도록 설계된 프런티어 기반 모델임
- 이전 Cosmos 릴리스는 월드 생성, 물리 이해, 제어된 장면 생성을 서로 다른 모델과 워크플로로 분리했지만, Cosmos 3는 이를 하나의 모델로 통합함
- 이번 릴리스는 Hugging Face의 모델 체크포인트, GitHub의 코드, 공개 데이터셋, 후속 학습 스크립트, NVIDIA GPU 배포용 Cosmos NIM 마이크로서비스를 제공함
두 타워 구조
- Cosmos 3는 두 개의 타워를 중심으로 한 Mixture-of-Transformers 구조를 사용함
Reasoner tower는 이미지, 비디오, 텍스트 같은 멀티모달 관찰을 해석하는 비전-언어 모델(VLM)이며, 자기회귀 구조로 입력을 해석하고 움직임, 객체 상호작용, 물리적 맥락을 이해함
Generator tower는 Reasoner tower의 이해를 조건으로 물리 인식 비디오와 행동 출력을 확산 기반 과정으로 생성함 - Reasoner는 독립적으로 호출할 수 있지만, Generator는 안내된 생성을 위해 항상 두 타워를 모두 활성화함
- 이 구조는 추론과 생성 작업을 단일 모델에서 처리해 여러 모델과 추론 파이프라인 사이의 오케스트레이션을 줄임
모델 크기 선택
Cosmos 3 Nano는 16B 파라미터의 컴팩트 모델이며, 효율적인 추론에 최적화돼 있음
- Nano는 NVIDIA RTX PRO 6000 GPU 같은 워크스테이션급 컴퓨트에서 실시간 로보틱스 추론과 물리 AI 애플리케이션을 실행하도록 설계됨
Cosmos 3 Super는 64B 파라미터 모델이며, 최대 품질과 기능을 목표로 함 - Super는 가장 높은 벤치마크 점수를 제공하며 NVIDIA Hopper와 NVIDIA Blackwell GPU 기반 데이터센터 배포를 겨냥함
- Super는 대규모 합성 데이터 생성과 고급 물리 추론 워크로드에 적합함
공개 데이터셋
- NVIDIA는 Cosmos 3 릴리스와 함께 Hugging Face에 여섯 개 합성 데이터 생성(SDG) 데이터셋을 공개함
- 이 데이터셋들은 Cosmos 3와 다른 모델의 후속 학습에 사용할 수 있으며, 로보틱스, 물리 시뮬레이션, 공간 추론, 인간 동작, 주행, 창고 환경을 다룸
- 공개 데이터셋:
HUE 평가 프레임워크
-
NVIDIA Cosmos Human Evaluation(HUE)은 대표 도메인 작업에서 Cosmos 3 Generator의 품질을 평가함
-
최신 비디오 생성 모델들이 기존 자동 리더보드에서 포화되면서 릴리스 간 점수 차이가 의미 있는 비교에 충분하지 않은 경우가 많아짐
-
HUE는 주관적 채점 대신 객관적 사실 검증으로 평가를 바꾸며, 상위 모델 사이의 세밀한 비교를 가능하게 함
-
HUE는 생성 비디오를 네 가지 차원에 걸친 단일 사실 yes/no 질문으로 분해함
-
의미 정렬
-
물리 법칙
-
기하 추론
-
시각적 무결성
-
질문은 로보틱스, 자율주행차, 물리 등 일곱 개 Physical AI 도메인을 포괄함
-
질문은 VLM 파이프라인으로 생성되고 인간 전문가가 정제하며, Hugging Face에 오픈소스로 공개됨
벤치마크 결과
- Cosmos 3는 물리 AI 추론, 생성 품질, 도메인별 성능을 다루는 여러 벤치마크 제품군에서 평가됨
- 추론 벤치마크에서 Cosmos 3 Super와 Cosmos 3 Nano는 VANTAGE-Bench의 32B 티어와 8B 티어에서 각각 선두를 기록함
- VANTAGE-Bench는 창고, 교통, 스마트 공간의 실제 고정 카메라 영상을 대상으로 비전-언어 모델을 평가하는 첫 공개 벤치마크임
- Traffic Anomaly Reasoning(TAR)은 교통 영상에서 이상 이벤트를 탐지하고 추론하는 새 리더보드이며 AI City Challenge 2026 Track 3의 공식 리더보드임
- 생성 벤치마크에서 Cosmos 3는 공개 리더보드 기준 오픈소스 SOTA이며 PAI-Bench, R-Bench Physics-IQ, RoboLab에서 선두를 보임
- Artificial Analysis에서는 Cosmos 3가 Text to Image leaderboard와 Image to Video (no audio) leaderboard에서 선두 오픈소스 모델로 평가됨
- R-Bench는 로봇 비디오 생성에서 비디오 기반 월드 모델을 평가하며, 구조적 일관성, 물리적 타당성, 실행 완성도 같은 하위 지표를 사용함
- PAI-Bench는 로보틱스, 자율주행차, 물리 상식 같은 도메인에서 비디오 이해와 비디오 생성을 평가함
- Physics-IQ는 생성 비디오 모델이 시각적 사실성만 달성하는지, 실제 물리 원리를 이해하는지 테스트함
- RoboLab은 작업 일반화 로봇 정책을 평가하는 시뮬레이션 벤치마크임
학습 레시피와 도메인 적응
- Cosmos 3 릴리스는 모델 체크포인트를 넘어 코드, 설정, 워크플로를 공개해 새 도메인, 형태, 데이터셋에 모델을 적응시킬 수 있게 함
- 지도 미세조정(SFT)은 개발자가 Cosmos 3 모델을 자체 데이터에 맞게 조정하도록 지원함
- 공개 레시피는 커스텀 비디오 데이터셋을 위한 비전 생성 후속 학습과 로보틱스·물리 AI 워크플로를 위한 행동 중심 레시피를 다룸
- 개발자는 로보틱스, 자율주행, 창고 자동화 목표 도메인에 맞게 Cosmos 3를 커스터마이즈할 수 있음
- 후속 학습 코드와 설정은 GitHub에서 제공됨
- 행동 후속 학습은 Cosmos 3를 forward dynamics, inverse dynamics, policy generation 같은 행동 인식 Physical AI 애플리케이션에 맞게 조정함
- 로보틱스에서는 로봇 행동을 조건으로 미래 관찰을 생성하고, 관찰된 시연 뒤의 행동을 추론하고, 현재 관찰과 작업 프롬프트에서 행동 시퀀스를 예측하는 워크플로를 지원함
NIM 마이크로서비스 배포
- Cosmos 3 모델은 최적화된 프로덕션 배포를 위해 NVIDIA NIM microservices로도 제공됨
- NIM 마이크로서비스는 모델과 최적화된 추론 런타임을 패키징해 서빙 인프라를 직접 튜닝하지 않아도 높은 성능을 내도록 함
- 추론 워크플로에서는 NIM 마이크로서비스가 Cosmos 3 GitHub 저장소보다 사용하기 쉽고, GitHub 저장소는 후속 학습 워크플로에 더 적합함
- Cosmos 3 Reasoner NIM은 현재 Cosmos 3 모델의 추론 기능을 제공함
- NIM은 BF16, FP8, NVFP4 양자화 체크포인트 선택을 지원함
- NVFP4 양자화는 모델의 수치 정밀도를 BF16에서 4비트 부동소수점으로 낮춰 최대 2배 추론 속도 향상을 달성함
- Cosmos 3 Reasoner NIM 서빙 스택은 vLLM을 기반으로 하며, vLLM은 continuous batching, paged attention, tensor parallelism 같은 기법으로 LLM을 효율적으로 서빙하는 오픈소스 추론 엔진임
- Cosmos 3 Nano는 vLLM-omni와 NVIDIA Dynamo로 실행할 수 있음
- Efficient Video Sampling(EVS)은 추론 중 VLM에 입력되는 비디오 토큰 수를 줄여 Cosmos Reason NIM 속도를 높임
- EVS는 프레임마다 가장 고유한 청크를 유지하고 나머지를 가지치기하며, 작은 GPU일수록 이 기법의 이점이 더 큰 경향을 보임
실행 방법
- 컨테이너를 가져오고 NGC에서 Cosmos 3 모델을 다운로드하려면 NVIDIA NGC API 키가 필요함
- Cosmos 3 Nano Reasoner NIM 실행 예시는 다음과 같음
- Cosmos 3 Super Reasoner NIM을 사용하려면
NIM_MODEL_SIZE=super
를 지정함
docker run --gpus=all \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:latest
- API 사용법과 추가 정보는 문서에서 확인할 수 있음
시작 리소스
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기