X요약2026. 06. 05. 13:56

NVIDIA의 새로운 세계 모델 플랫폼 Cosmos 3 오픈소스 공개

요약

NVIDIA가 텍스트, 이미지, 비디오, 오디오 및 동작 시퀀스를 통합 처리하는 세계 모델 플랫폼 Cosmos 3를 오픈소스로 공개했습니다. 이 플랫폼은 추론과 생성을 하나의 아키텍처로 통합하여 물리적 AI 개발을 위한 고품질 데이터 생성과 시뮬레이션을 지원합니다.

핵심 포인트

멀티모달 데이터(텍스트, 비디오, 오디오, 동작) 통합 처리
추론과 생성을 결합한 단일 아키텍처 구조
로봇 궤적 예측 및 물리적 타당성 평가 기능 제공
16B Nano 및 64B Super 두 가지 모델 크기 지원

로보틱스(Robotics)나 자율 주행(Autonomous driving)과 같은 물리적 AI (Physical AI)를 개발하려면 방대한 양의 실제 세계 데이터(Real-world data)로 모델을 훈련시켜야 하는데, 이는 수집 비용이 높고 합성 데이터(Synthetic data)는 품질이 충분하지 않은 경우가 많습니다.

최근 NVIDIA는 텍스트, 이미지, 비디오, 오디오, 심지어 동작 시퀀스(Action sequences)까지 동시에 이해하고 생성할 수 있는 세계 모델 (World model) 플랫폼인 Cosmos 3를 오픈소스로 공개했습니다. 하나의 모델로 다양한 모달리티 (Modalities)를 모두 처리할 수 있습니다.

추론 (Reasoning)과 생성 (Generation)을 하나의 아키텍처 (Architecture)로 통합함으로써, 텍스트 한 줄을 입력하면 동기화된 음향 효과가 포함된 비디오를 생성할 수 있습니다.

이미지에 동작 지침 (Action instructions)을 추가하면 로봇의 다음 움직임 궤적 (Movement trajectory)을 예측할 수 있습니다.

GitHub:
http://github.com/NVIDIA/cosmos
이 플랫폼은 16B Nano 버전과 64B Super 버전의 두 가지 모델 크기를 제공하며, 최대 720p 해상도와 최대 300프레임의 비디오 생성을 지원합니다.

추론 (Inference) 구성 요소는 비디오 설명 (Video description), 이벤트 로컬라이제이션 (Event localization), 물리적 타당성 평가 (Physical plausibility assessment)와 같은 이해 작업을 처리합니다.

로봇 시뮬레이션 (Robot simulation), 자율 주행 시나리오 생성 (Autonomous driving scenario generation), 또는 합성 데이터 (Synthetic data)를 활용한 물리적 AI (Physical AI) 훈련을 진행하고 있다면, 이 프로젝트를 주목할 가치가 있습니다.

운영 체제 (Operating systems)의 기본 원리를 배우고 싶지만, 수십만 줄에 달하는 커널 소스 코드 (Kernel source code) 때문에 압도당하거나 핵심 스레드 (Threads)를 파악하기 어렵고, 진정으로 읽고 이해하기 힘들었던 경험이 있으신가요?

마침 이것을 발견했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

NVIDIA의 새로운 세계 모델 플랫폼 Cosmos 3 오픈소스 공개

요약

핵심 포인트

댓글