NVIDIA Cosmos 3 환영: 물리적 AI (Physical AI) 추론 및 행동을 위한 최초의 오픈 옴니 모델 (Omni-model)

로보틱스, 자율 주행 차량, 또는 스마트 공간을 위해 구축하고 있든 간에, Cosmos 3는 물리적 세계를 시뮬레이션하고 이해할 수 있는 토대를 제공합니다.

이번 릴리스와 함께 제공되는 사항은 다음과 같습니다:

모델 카드 및 라이선스가 포함된 Hugging Face의 Cosmos 3 Super 및 Cosmos 3 Nano
생성 파이프라인을 위한 Cosmos 3 Diffusers 통합
자체 데이터로 Cosmos 3를 학습시키기 위한 사후 학습 (Post-training) 스크립트 (GitHub 제공)
물리적 AI를 위한 오픈 합성 데이터 생성 (SDG) 데이터셋

Cosmos 3의 새로운 점은 무엇인가?
Cosmos 3의 역량
Diffusers를 사용한 Cosmos 3 활용
물리적 AI를 위한 데이터셋
Cosmos 프레임워크
리소스

이전 Cosmos 릴리스와 비교했을 때 Cosmos 3의 가장 큰 변화는 Mixture-of-Transformers (MoT) 아키텍처를 기반으로 구축된 옴니 모델 (Omni-model)이라는 점입니다. 이전에는 개발자들이 세계 생성 (Cosmos Predict), 제어된 생성 (Cosmos Transfer), 장면 이해 (Cosmos Reason), 그리고 정책 생성 (Cosmos Policy)과 같은 서로 다른 역량을 위해 별도의 모델을 사용해야 했습니다. Cosmos 3는 이 모든 것을 하나의 통합된 순전파 (Forward pass) 과정에서 추론하고 다양한 모달리티 (Modalities)를 생성할 수 있는 단일 모델로 가능하게 합니다.

이는 이제 하나의 모델로 다음을 모두 수행할 수 있음을 의미합니다:

텍스트, 이미지, 비디오 또는 행동 (Action) 입력을 통해 현실적이고 물리적으로 타당한 비디오 세계 생성
움직임, 인과 관계, 공간적 관계와 같은 물리적 특성에 대한 추론
현재 상태를 기반으로 미래의 비디오 및 행동 시퀀스 예측

이것이 물리적 AI (Physical AI)에 중요한 이유

Cosmos 3는 실제 세계를 이해할 수 있는 물리적 AI 시스템 구축을 돕습니다. 단순한 픽셀과 토큰이 아니라, 움직임, 인과 관계, 물리학, 그리고 행동을 이해합니다. 빨래를 접는 로봇을 훈련시키거나, 자율 주행 시뮬레이션을 구축하거나, 창고 안전 시나리오를 위한 합성 학습 데이터를 생성하는 경우, Cosmos 3는 정확히 이러한 유스케이스 (Use-cases)를 위해 설계된 파운데이션 모델 (Foundation model)입니다.

아키텍처 (Architecture)

Cosmos 3는 텍스트, 이미지, 비디오, 오디오 및 액션(action)과 같은 모든 모달리티(modality)를 단일 통합 아키텍처 내에서 처리하는 MoT 백본(backbone)을 기반으로 구축되었습니다. 각 모달리티는 먼저 전용 인코더(시각적 이해를 위한 ViT, 시각적/오디오 생성을 위한 VAE, 액션을 위한 도메인 인식 벡터)에 의해 인코딩된 후, 공유된 표현 공간(shared representation space)으로 투영됩니다.

입력 시퀀스는 두 개의 하위 시퀀스로 분할됩니다. 하나는 다음 토큰 예측(next-token prediction)을 통해 추론과 이해를 처리하는 자기회귀 (AR, Autoregressive) 하위 시퀀스이며, 다른 하나는 반복적인 디노이징(denoising)을 통해 생성을 처리하는 확산 (DM, Diffusion) 하위 시퀀스입니다. AR 및 DM 토큰은 각 트랜스포머(transformer) 레이어 내에서 별도의 파라미터 세트를 사용하지만, 결합 어텐션(joint attention)을 통해 상호작용합니다. 이것이 바로 단일 모델이 아키텍처의 변경 없이 시각 언어 모델 (VLM, Vision Language Model), 비디오 생성기, 순방향/역방향 역학 모델(forward/inverse dynamics model) 또는 로봇 정책(robot policy) 사이를 원활하게 전환할 수 있게 해주는 핵심입니다.

모델 버전 (Model Versions)

이번 Cosmos 3 출시에는 다양한 배포 시나리오에 최적화된 두 가지 모델 크기가 포함됩니다:

Cosmos 3 Nano - 효율적인 추론 (inference)에 최적화된 8B 파라미터 모델 (8B 추론기 및 8B 생성기)입니다. Cosmos 3 Nano는 RTX PRO 6000 GPU와 같은 워크스테이션급 컴퓨팅에서 실행되도록 설계되었으며, Hugging Face의 nvidia/Cosmos3-Nano에서 사용할 수 있습니다.

Cosmos 3 Super - 대규모 합성 데이터 생성 (SDG, Synthetic Data Generation) 및 연구를 위해 설계된 32B 파라미터 모델 (32B 추론기 및 32B 생성기)이며, NVIDIA Hopper 및 Blackwell GPU에서 실행됩니다. Cosmos 3 Super는 Hugging Face의 nvidia/Cosmos3-Super에서 사용할 수 있습니다.

Cosmos 3는 단일 통합 모델을 통해 다양한 입력 및 생성 모달리티를 지원합니다:

입력 모달리티	출력 모달리티	애플리케이션
텍스트	이미지, 비디오	비디오 모델
텍스트, 비디오	비디오	시각 언어 모델 (VLM)
...	...	...

프롬프트 가이드 (Prompt Guide)

비디오 생성을 위해서는 서사적인 단락 형태의 상세한 프롬프트를 사용하는 것을 권장합니다. 예를 들어:

비디오는 맑고 푸른 하늘 아래 다차선 고속도로를 달리는 차량 내부의 시점에서 시작됩니다. 도로 양옆으로는 울창한 초록빛 나무들이 늘어서 있어 평온한 분위기를 조성합니다. 눈에 띄는 흰색 세미트럭과 다양한 승용차를 포함한 여러 차량이 앞서 일정한 속도로 주행하고 있습니다. 고속도로는 콘크리트 장벽으로 구분된 여러 차선으로 이루어져 있으며, 장면은 밝은 햇살로 가득 차 맑은 날임을 나타냅니다. 비디오가 진행됨에 따라, 앞쪽 차선에 갑자기 많은 양의 파편이 나타납니다. 이를 피할 시간이 거의 없기 때문에, 자차(ego vehicle)는 파편 위를 지나가며 계속 앞으로 나아가야 합니다. 자차가 흩어진 물체들을 지나갈 때 눈에 띄는 충격이 발생합니다. 차량 내부에서 앞쪽 도로와 주변 환경을 포착하는 1인칭 시점(point-of-view) 샷입니다.

행동 생성 (Action generation)을 위한 프롬프트는 간결해야 하며 공간적 참조를 제공해야 합니다. 예를 들어:

냄비를 보라색 물체의 왼쪽에 두세요. 이 비디오는 장면을 바라보는 1인칭 시점에서 촬영되었습니다.

GitHub의 프롬프트 가이드에서 프롬프트 업샘플링 (prompt upsampling) 템플릿과 고품질 프롬프트 작성을 위한 모범 사례를 확인하세요.

Cosmos 3는 Hugging Face Diffusers 라이브러리와 통합되어 있어, 단 몇 줄의 코드만으로 월드 생성 (world generation) 파이프라인을 쉽게 사용할 수 있습니다. 익숙한 DiffusionPipeline을 통해 Cosmos3OmniPipeline으로 Cosmos 3를 실행할 수 있습니다. 이를 통해 Cosmos 3의 마찰 없는 도입과 기존 파이프라인과의 통합을 목표로 합니다.

Cosmos 3 Nano 모델을 사용하여 단일 프레임 생성을 위한 텍스트-이미지 (Text-to-Image) 예제를 살펴보겠습니다:

import torch
from diffusers import Cosmos3OmniPipeline
pipe = Cosmos3OmniPipeline.from_pretrained(
...

다음은 Cosmos 3 Nano 모델과 주어진 프롬프트에 의해 생성된 이미지입니다:

문서에는 텍스트-비디오 (Text-to-Video), 이미지-비디오 (Image-to-Video) 등에 대한 예제도 포함되어 있습니다. Cosmos 3 Diffusers 문서에서 정보와 API 사용법을 확인하세요.

Cosmos 3 출시의 일환으로, NVIDIA는 물리적 AI (Physical AI) 커뮤니티가 세계 기초 모델 (World Foundation Models, WFMs)을 학습하고 평가하는 데 도움을 줄 수 있도록 일련의 합성 데이터 생성 (Synthetic Data Generation, SDG) 데이터셋을 공개합니다. 이 데이터셋들은 다양한 NVIDIA 팀에 의해 생성되었으며 Hugging Face에서 사용할 수 있습니다.

데이터셋	도메인	설명
Embodied-Robot-Scenes	로보틱스 (Robotics)	합성 로봇 시뮬레이션 데이터
Physical-Interaction-Scenes	물리학 (Physics)	Isaac Sim 물리학 시뮬레이션 데이터
...

Cosmos Framework는 Cosmos 3와 같은 WFM을 학습하고 서빙하기 위한 엔드 투 엔드 (end-to-end) 프레임워크입니다. 이곳에서 추론 (inference) 및 사후 학습 (post-training) 스크립트, 그리고 개발을 위한 에이전트 기술 (agent skills)을 찾을 수 있습니다.

Cosmos 3 사후 학습 (Post-training)

Cosmos 3는 로보틱스, 자율 주행 차량, 스마트 공간을 위한 세계 비디오와 행동을 즉시 이해하고 생성할 수 있지만, 일부 애플리케이션은 최상의 결과를 얻기 위해 특정 데이터셋에 대한 추가적인 사후 학습 (post-training)이 필요할 수 있습니다. 당사는 다양한 로봇, 환경 및 작업에 대해 Cosmos 3를 사후 학습할 것을 권장하며, 리포지토리(repo)에 있는 사후 학습 가이드를 확인하시기 바랍니다.

에이전트 기술 (Agent Skills)

또한 이 리포지토리에는 개발을 빠르고 쉽게 만들기 위한 에이전트 기술 (agent skills)이 포함되어 있습니다. 이러한 기술은 요구 사항을 검증하고 종속성 (dependencies)과 함께 환경을 설정하는 데 도움을 줍니다. 또한 리포지토리 구조와 예제를 학습하거나, 좋은 프롬프트 (prompts)를 작성하거나, 추론 및 사후 학습 스크립트를 실행하는 데에도 사용할 수 있습니다.

Cosmos 3의 기능, 성능, 사후 학습, 그리고 NIM 마이크로서비스 (microservices)를 통한 배포에 대해 알아보려면 Cosmos 3 기술 블로그를 읽어보세요.

Cosmos 3 GitHub
Cosmos 3 NIM 마이크로서비스
Cosmos Cookbook
Cosmos 페이지
Cosmos 3 기술 논문 (Technical Paper)
Diffusers Cosmos 문서

Cosmos 3는 다음과 같은 NVIDIA 전반의 수많은 팀과 인원들 간의 놀라운 협업의 결과물입니다 -

Adeline Aubame, Aditya Mahajan, Aigul Dzhumamuratova, Akash Gokul, Akul Santhosh, Aleksandr Efitorov, Alex Sotelo, Alexander Schwarz, Alperen Degirmenci, Amol Fasale, Andrew Tham, Ankur Handa, Arihant Jain, Arslan Ali, Artur Zolkowski, Aryaman Gupta, Asawaree Bhide, Ashkan Mirzaei, Ashley Chow, Ashna Khetan, Atharva Joshi, Barnaby Simkin, Benedikt Falk, Brett Hamilton, Carlos Casanova, Chaeyeon Chung, Charles Zhou, Chen-Hsan Lin, Chen-Hsuan Lin, Chhavi Nijhawan, Chieh-Yun Chen, Chintan Shah, Chris Helvig, Chris Pruett, Cindy Zha, Cyrus Hogg, Dahjung Chung, Dan Blick, David Wehr, Dawid Majchrowski, DeLesley Hutchins, Delin Qu, Dennis Lynch, Diego Garzon, Dima Zhylko, Durra Mohsin, Egor Krivov, Ekram Mukbil, Eric Cameracci, Fangyin Wei, Fengzhe Zhou, Francesco Ferroni, Freya Li, George Kurian, Gwanghyun Kim, Haaland Hao Liang, Hai Loc Lu, Hans Yang, Hao Liang, Hao Wang, Hesam Rabeti, Hugo Hadfield, Hyejin Moon, Itai Zadok, Jayjun Lee, Jeana Choi, JF Lafleche, Jiangran Lyu, Jiaojiao Fan, Jiaxiang Tang, Jibin Varghese, Jim Fan, Jingyi Jin, Jinwei Gu, Jon Allen, Joshua Bapst, Joyjit Daw, Julia Kiczka, Julian Ouyang, Kaichun Mo, Kayley Ting, Ke Ding, Kedi Wu, Kevin Brady, Kirill Motkov, Kristen Rumley, Krzysztof Tomala, Liang Feng, Liangkai Zhang, Ling Li, Louis Marcoux, Maciej Bala, Madison Huang, Magdalena Dadela, Mahesh Patekar, Marco Di Lucca, Marilyn Reeb, Mark Carlson, Martin Antolini, Mateusz Sieniawski, Matt Cragun, Meredith Price, Michael Huang, Miguel Guerrero, Miguel Martin, Min Shi, Ming-Yu Liu, Mohammad Harrim, Morteza Ramezanali, Mukesh Beladiya, Nalin Dadhich, Naomi Eigbe, Nathan Hayes-Roth, Nicole Drumheller, Nikhilesh Joshi, Omar Laymoun, Paris Zhang, Paula Ramos, Pawel Morkisz, Peter Gambrill, Pooya Jannaty, Pooya Khaloo, Pranjali Joshi, Qi Wang, Qianli Ma, Qiao Wang, Qing Miao, Qizhi Chen, Rahul Heinrich Steiger, Raju Wagwani, Robert Denomme, Rodrigo Vieira Del Monte, Roy Anthony, Ruqing Xu, Ryan Bernard, Ryan Ji, Saeid Motiian, Sandip Bhaskar, Sandra

Skaff, Santanu Dutta, Saurav Kumar, Sehwi Park, Sergiy Fefilatyev, Shangkun Sun, Shangru Li, Shilin Zhu, Shreyas Misra, Shun Zhang, Shuran Song, Simon Yuen, Simon Zhang, Slawek Kierat, Smita Ithape, Soha Pouya, Sophia Huang, Stefanie Manzinger, Steven Baughman, Suneel Indupuru, Sunil Srinivasa, Sunny Kim, Tavish Chen, Thabang Ngazimbi, Thomas Volk, Tianwei She, Tiffany Cai, Ting-Chun Wang, TJ Galda, Tolou Tavakkoli, Tomasz Kornuta, Trung Pham, Tsung-Yi Lin, Vanni Brighella, Varun Praveen, Wei-Cheng Tseng, Wenjie Luo, Wesley Li, Wojciech Kutak, Wojciech Rymer, Xiangyu Lu, Xiaodong Yang, Xiaotong Chen, Xin Kong, Xinquan Xu, Xiu Chia, Xuning Yang, Yan Chang, Yan Wang, Yanan Jian, Yao Xu, Yashraj Narang, Yeongho Seol, Yichu Yang, Yifan Ding, Yihuai Gao, Yilin Zhao, Yin Cui, Yogesh Balaji, Yu Wang, Yu-Wei Chao, Yue Tang, Yufan Huang, Yuke Zhu, Yuliya Zhautouskaya, Yurong You, Yuzhu Dong, Zaid Pervaiz Bhat, Zekun Hao, Zhaoshuo Li, Zhizheng Zhang.

NVIDIA Cosmos 3 환영: 물리적 AI (Physical AI) 추론 및 행동을 위한 최초의 오픈 옴니 모델 (Omni-model)

요약

핵심 포인트

댓글