본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 06. 04. 00:37

NVIDIA Cosmos 3 읽기 — Physical AI의 '세계 모델(World Model)'이란 무엇인가

요약

NVIDIA가 발표한 Cosmos 3는 물리 세계의 상호작용을 모델링하는 '세계 모델(World Model)' 기반의 옴니 모델입니다. Two-Tower 방식의 Mixture-of-Transformers 아키텍처를 통해 추론과 생성을 통합하여 로보틱스 및 자율주행을 위한 혁신적인 성능을 제공합니다.

핵심 포인트

  • 텍스트, 영상, 액션 시퀀스를 통합 처리하는 옴니 모델
  • Two-Tower 구조(Reasoner + Generator)의 MoT 아키텍처
  • Nano(16B) 및 Super(64B) 두 가지 모델 변체 제공
  • 물리적 상호작용과 미래 상태 전이를 모델링하는 Physical AI 지향

서론

2026년 6월 1일, NVIDIA는 COMPUTEX 2026(GTC Taipei)에서 Cosmos 3를 발표했습니다. "Physical AI를 위한 세계 기반 모델(World Foundation Model)"이라는 슬로건과 함께, 로보틱스(Robotics) 및 자율주행 맥락에서 큰 주목을 받고 있습니다.

Cosmos 3의 보도 자료는 이곳에 있습니다.

다만, 이런 종류의 발표는 "대단해 보이는 단어들"이 나열되는 것에 비해, 결국 그것이 무엇인지, 무엇을 할 수 있는지, 그리고 내 손안의 하드웨어에서 돌아가는지가 잘 보이지 않는 경우가 많습니다. 이 기사에서는 공식 1차 정보를 바탕으로, Cosmos 3를 **모델 구성·합성 데이터·에지 추론 (Edge Inference)**의 세 가지 관점으로 압축하여 정리해 보겠습니다. 저 자신이 로보틱스 영역을 조사하는 과정에서 읽은 내용을 엔지니어의 시각에서 다시 정리한 것입니다.

애초에 「세계 모델 (World Model)」이란 무엇인가

LLM이 언어의 확률 분포를 모델링한 것처럼, World Foundation Model은 물리 세계 그 자체——물체·상호작용·의도·미래의 상태 전이——를 모델링하려고 하는 것입니다. NVIDIA는 이를 "Physical AI(물리 세계에서 움직이는 AI)의 기반"으로 정의하고 있습니다.

Cosmos의 흥미로운 점은 텍스트·이미지·영상·음성에 더해 **액션 시퀀스 (Action Sequence, 로봇의 동작)**까지 동일한 모델로 다루는 **옴니 모델 (Omni-model)**이라는 점입니다. "카메라 영상을 입력으로 받아, 다음에 어떻게 움직여야 하는지를 출력한다"까지 일관되게 처리할 수 있다는 것이 기존 세대와의 가장 큰 차이점입니다.

실제로 이전 세대인 Cosmos 2.x까지는 지각 (Perception)과 생성 (Generation)이 별개의 모델로 나뉘어 있었고, 다룰 수 있는 모달리티 (Modality)도 텍스트·이미지·영상에 국한되어 있었습니다. Cosmos 3에서 이것이 통합되었다는 것이 이번 릴리스의 핵심입니다.

모델 구성: Two-Tower 방식의 Mixture-of-Transformers

Cosmos 3의 아키텍처는 **Mixture-of-Transformers (MoT)**로, 각 모델이 동일한 크기의 두 개의 Transformer를 갖는 "Two-Tower" 구조로 되어 있습니다.

Reasoner (추론 타워): 장면을 이해하고, 행동을 계획하며, 생성을 유도하는 구조화된 표현을 출력함 -
Generator (생성 타워): 실제 픽셀·음성 파형·액션 시퀀스를 생성함

즉, "생각하는 쪽"과 "만드는 쪽"이 역할을 분담하여 공존하는 설계입니다.

릴리스된 것은 두 가지 변체(Variant)입니다.

모델구성베이스 아키텍처
Cosmos 3 Nano8B Reasoner + 8B Generator = 총 16BQwen3-VL 8B
Cosmos 3 Super32B Reasoner + 32B Generator = 총 64BQwen3-VL 32B

Two-Tower 구조이므로 파라미터 (Parameter) 수는 Reasoner와 Generator의 합계로 계산합니다. NVIDIA 공식 측도 "Nano는 16B 파라미터 모델 (8B reasoner + 8B generator)", "Super는 64B 파라미터 모델 (32B reasoner + 32B generator)"라며 합계치를 주 표기로 사용하고 있습니다.

그리고 세 번째로, 디바이스 상에서의 실시간 추론을 위한 Cosmos 3 Edge가 예고되어 있으나, 이는 집필 시점(2026년 6월) 기준으로 Coming Soon 상태이며 아직 출시되지 않았습니다.

라이선스는 OpenMDW 1.1이며, 상업적 이용이 허가됩니다. 가중치 (Weights)는 Hugging Face를 통해 공개되며, 6개의 SDG (Synthetic Data Generation, 합성 데이터 생성) 데이터셋·학습 레시피·벤치마크도 함께 오픈 소스로 공개되었습니다. 학습 데이터는 이미지 약 10억 장, 실사 및 합성 포함 영상 4억 개, 환경음, 텍스트, 인간과 로봇의 동작 데이터를 포함하는 20조 토큰 규모로 알려져 있습니다.

합성 데이터: 「데이터 문제를 계산 문제로 바꾼다」

Cosmos 3의 실용 측면에서 가장 효과적인 것이 바로 **합성 데이터 생성 (Synthetic Data Generation)**입니다. NVIDIA는 GTC 2026에서 이를 "로보틱스의 데이터 문제를 계산 문제로 대체한다"라고 표현했습니다. 개인적으로는 이 한마디가 이번 릴리스 전체를 상징한다고 생각합니다.

로봇 학습에는 방대한 실기(Real-world) 데이터가 필요하며, 이를 수집하는 데는 많은 비용과 시간이 소요됩니다. Cosmos는 이 문제를 다음과 같은 방식으로 돌파합니다.

Omniverse(포토리얼한 3D 시뮬레이션)로 상황을 생성 - 이를 지도 비디오(Instruction Video)로 활용
Cosmos에 입력 - 제어 가능하고 포토리얼한
합성 데이터(Synthetic Data)를 대량 생성

자율 주행의 경우, 기존 주행 데이터에 기상, 조명, 지형의 변동성을 합성하여 다양성을 증폭할 수 있습니다. NVIDIA는 이 워크플로우를 통해 "수개월이 걸리던 Physical AI의 훈련 및 평가 사이클을 수일로 단축한다"라고 주장하고 있습니다.

실제로 휴머노이드 로봇 기업인 1X는 Cosmos 계열의 모델을 사용하여 신형 로봇 NEO Gamma의 훈련을 진행하고 있다고 발표했습니다. "실기에서 데이터를 수집하기 전에, 먼저 시뮬레이션과 합성 데이터로 토대를 만든다"라는 흐름이 업계의 표준적인 레시피가 되어가고 있습니다.

에지 추론(Edge Inference): 이제 기기 자체에서 동작한다

"그래서, 결국 이것은 클라우드 안에서만 일어나는 이야기인가?" —— 엔지니어로서 가장 궁금한 지점은 바로 여기일 것입니다. 결론부터 말씀드리면, 추론 계통은 이미 에지(Edge)에서 동작하고 있습니다.

핵심은 Cosmos 3 본체(16B / 64B)와는 별개의 계통인 Cosmos Reason이라는 추론 VLM(Vision-Language Model)의 존재입니다. 이것이 Jetson 위에서 동작합니다. Jetson은 NVIDIA의 에지 AI용 임베디드 모듈 시리즈로, 로봇이나 임베디드 기기에 그대로 탑재하여 클라우드에 연결하지 않고 기기 자체에서 추론을 돌리기 위한 소형 하드웨어입니다.

Cosmos Reason2는 CES 2026(2026년 1월)에서 발표될 예정이며, 2B / 8B 사이즈와 최대 256K 토큰의 긴 컨텍스트(Long Context)를 지원합니다.
**Cosmos Reason2-2B를 W4A16으로 양자화(Quantization)**한 버전이 Jetson 전 라인업에 최적화되어, Orin Nano 8GB(유니파이드 메모리 8GB)에서도 동작합니다.

양자화 버전의 실측치로서, max_model_length=2048 설정 시 약 5.8GB의 RAM을 사용하며, 텍스트·이미지·비디오 추론에서 약 16~17 tokens/s가 보고되었습니다.

500달러 미만의 에지 모듈이 카메라 영상에 대해 물리적 추론을 할 수 있다는 것이 이 양자화가 의미하는 바입니다.

상위 계층에서는 **Jetson Thor(AGX Thor)**가 VLM/VLA를 에지에서 실시간으로 구동하는 토대가 됩니다. Cosmos Reason 외에도 Isaac GR00T 계열의 VLA(Vision-Language-Action) 모델이나, DeepSeek, Llama, Qwen과 같은 OSS(Open Source Software)를 지원합니다. Isaac GR00T N1.6은 Cosmos Reason을 추론 엔진으로 내장하여, 휴머노이드의 전신 제어를 실현하는 VLA로 자리매김하고 있습니다.

정리하자면, 현재 상태는 다음과 같습니다.

추론(Reason): 이미 에지(Jetson Thor ~ Orin Nano)에서 동작 중
세계 모델(World Model) 본체(VLA)의 에지 실기 버전(Cosmos 3 Edge): 예고되었으나 아직 미출시

"에지에서 실시간으로 물리적 추론을 수행하는" 부분은 이미 구현되었으며, "세계 모델 본체를 디바이스 상에서 완결짓는" 마지막 퍼즐 조각인 Cosmos 3 Edge의 등장을 기다리고 있는 상황이라고 볼 수 있습니다.

채택 현황: 이미 현장에 적용되고 있다

"그래서, 이것은 발표회용 데모인가, 아니면 현장에서 실제로 돌아가고 있는가?" 또한 궁금한 대목입니다. 결론을 말씀드리면, 이미 실기 및 본업에 통합된 사례가 여러 건 나오고 있습니다.

IntBot은 GTC 2026에서 Cosmos Reason2를 로봇의 에지 컴퓨팅 장치에 직접 탑재한 사례를 시연했습니다. 3대의 로봇이 컨퍼런스 행사장 내에서 대본 없이 접수, 안내, 대화를 수행하는 데모였습니다. 클라우드로 데이터를 보내지 않고 기기 자체에서 추론하기 때문에, 낮은 레이턴시(Latency)와 프라이버시 보호가 강점이었습니다.
Salesforce는 Agentforce와 Cosmos Reason을 결합하여 자사 로봇의 영상을 분석함으로써, 인시던트 해결 시간을 약 2배 빠르게 단축했다고 발표했습니다.
LEM Surgical은 수술 지원 로봇 Dynamis의 자율 암(Arm)을 Jetson AGX Thor + Cosmos Transfer로 훈련 및 구동하고 있습니다.

하드웨어 측면에서도 Boston Dynamics, Figure, Franka, NEURA Robotics가 Jetson AGX Thor를 실제 생산(in production) 단계의 휴머노이드에 탑재하고 있습니다.

일본 기업의 움직임

일본의 로보틱스 기업들도 이 흐름에 올라타고 있습니다. FANUC은 NVIDIA Isaac GR00T 플랫폼과 Cosmos Reason2를 통합하고 있으며, **YASKAWA(安川電機)**는 Jetson 모듈을 컨트롤러에 탑재하여 생산 라인의 에지 추론(Edge Inference)을 실현하고 있습니다. **Kawasaki Heavy Industries(川崎重工)**는 실리콘밸리에 'Kawasaki Physical AI Center San Jose'를 개설하여 NVIDIA, Fujitsu 등과 협업하며 자사의 배송 로봇 및 수술 지원 로봇인 hinotori 등에 피지컬 AI(Physical AI)를 결합하는 움직임을 추진하고 있습니다. 일본은 본래 세계 로봇의 절반 가까이를 만들어온 현장이며, 그곳에 세계 모델(World Model)이 탑재되기 시작한 것입니다.

"모델과 에지 기반 모두 OSS(Open Source Software)로 누구나 손에 넣을 수 있는" 시대가 됨에 따라, 경쟁의 축은 기초 모델(Foundation Model) 자체에서 현장에서의 구현·통합·운용 레이어로 이동하고 있는지도 모릅니다. 이는 개인적인 관찰입니다만, 세계 기초 모델(World Foundation Model)이 범용화(Commoditization)될수록 차이를 만드는 지점은 "그것을 현장에서 어떻게 완전히 활용하느냐"가 될 것이라는 느낌이 듭니다.

마치며

Cosmos 3를 세 가지 포인트로 다시 정리하면 다음과 같습니다.

모델 구성: Two-Tower MoT. Nano=16B(8B+8B) / Super=64B(32B+32B) -
합성 데이터(Synthetic Data): Omniverse → Cosmos를 통해 훈련 데이터를 대량 생산. "데이터 문제를 계산 문제로" -
에지 추론(Edge Inference): Cosmos Reason은 이미 Jetson에서 동작. 본체의 에지 버전은 Coming Soon

"세계를 모델화한다"라는 말만 들으면 막연하게 느껴질 수 있지만, 내용을 살펴보면 Qwen3-VL 기반의 현실적인 구조로 되어 있으며, 양자화(Quantization)를 거치면 손바닥 크기의 모듈에서도 물리 추론(Physical Reasoning)이 작동하는, 매우 실질적인 이야기였습니다. Cosmos 3 Edge의 출시 시기는 에지 Physical AI가 본격적으로 범용화되는 타이밍의 척도로서 계속해서 지켜보고자 합니다.

주요 참조처

  • NVIDIA Launches Cosmos 3, the Open Frontier Foundation Model for Physical AI (NVIDIA Newsroom)
  • How Cosmos 3 Helps Physical AI Think Before It Acts (NVIDIA Blog)
  • Develop Physical AI Reasoning, World, and Action Models with NVIDIA Cosmos 3 (NVIDIA Technical Blog)
  • Welcome NVIDIA Cosmos 3 (Hugging Face Blog)
  • NVIDIA Releases Cosmos 3: A Two-Tower Mixture-of-Transformers Foundation Model (MarkTechPost)
  • NVIDIA Cosmos on Jetson: Physical AI Runs at the Edge Now
  • Deploying Open Source Vision Language Models (VLM) on Jetson (Hugging Face Blog)
  • GTC 2026: Nvidia wants to swap robotics' data problem for a compute problem (The Decoder)
  • NVIDIA and Global Robotics Leaders Take Physical AI to the Real World (NVIDIA Newsroom)
  • GTC 2026: IntBot Showcases Edge Deployment of NVIDIA Cosmos Reason-2 (PR Newswire)
  • FANUC, ABB, YASKAWA 등 대기업이 NVIDIA 기술로 피지컬 AI 개발 가속 (Robosta)
  • NVIDIA, Analog Devices, Microsoft, Fujitsu와 피지컬 AI의 사회 구현을 위해 협업 (Kawasaki Heavy Industries 보도자료)

Discussion

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0