NVIDIA Cosmos 3: Two-Tower 아키텍처를 통한 물리적 AI 추론과 생성의 통합

로봇이 물체를 집어 올리도록 훈련시키는 것은 단순해 보이지만, 얼마나 많은 별도의 시스템이 관여하는지 깨닫게 되면 이야기가 달라집니다. 장면을 이해하기 위한 비전 모델 (vision model), 행동을 계획하기 위한 추론 모델 (reasoning model), 다음에 일어날 일을 예측하기 위한 역학 모델 (dynamics model), 그리고 모터 명령을 생성하기 위한 정책 모델 (policy model)이 필요합니다. 각 구성 요소는 개별적으로 훈련되며, 글루 코드 (glue code)로 서로 연결되는데, 이 과정에서 매 단계마다 오류가 누적되기 쉽습니다.

2026년 6월 1일에 출시된 NVIDIA의 Cosmos 3는 다른 접근 방식을 취합니다. 이는 단일 파운데이션 모델 (foundation model)로서, NVIDIA가 "옴니모달 월드 모델 (omnimodal world model)"이라고 부르는 것으로, 하나의 통합된 아키텍처 내에서 물리적 추론 (physical reasoning), 세계 시뮬레이션 (world simulation), 그리고 행동 생성 (action generation)을 처리합니다. 이 포스트에서는 이것이 어떻게 작동하는지, Mixture-of-Transformers (MoT) 설계가 실제로 무엇을 하는지, 그리고 그 한계는 어디인지 분석합니다.

핵심 문제: 물리적 AI를 위한 파편화된 파이프라인

오늘날 대부분의 물리적 AI 시스템은 파이프라인 (pipelines) 형태입니다. 카메라가 비전 인코더 (vision encoder)로 데이터를 전달하면, 이는 추론을 위한 언어 모델 (language model)로 전달되고, 다시 비디오 예측을 위한 별도의 확산 모델 (diffusion model)로 전달된 후, 최종적으로 행동 생성을 위한 정책 네트워크 (policy network)로 전달됩니다. 각 모델은 서로 다른 목적을 가진 서로 다른 데이터로 훈련되었으며, 대개 고정된 크기의 임베딩 벡터 (embedding vector)라는 좁은 병목 구간을 통해 통신합니다.

문제는 물리적 추론과 생성이 매우 밀접하게 결합되어 있다는 점입니다. 로봇 팔이 컵을 성공적으로 잡을 수 있을지 예측하려면 장면의 기하학적 구조 (geometry), 접촉의 물리 법칙 (physics of contact), 그리고 로봇 팔의 예상 궤적 (trajectory)을 동시에 이해해야 합니다. 이를 별개의 모델을 통해 수행한다는 것은 각 구성 요소가 전체 그림의 일부만을 본다는 것을 의미합니다.

Cosmos 3는 텍스트, 이미지, 비디오, 오디오 및 행동 궤적을 공유된 표현 공간 (shared representation space)에서 처리하는 단일 모델을 훈련함으로써 이 문제를 해결합니다. 핵심적인 아키텍처 혁신은 Mixture-of-Transformers 백본 (backbone)입니다.

Two-Tower 아키텍처

Cosmos 3는 NVIDIA가 Mixture-of-Transformers (MoT) 설계라고 부르는 방식을 사용하며, 이는 단일 순전파 (forward pass) 과정에서 함께 작동하는 두 개의 트랜스포머 타워 (transformer towers)를 중심으로 구축되었습니다.

**Reasoner 타워 (The Reasoner Tower)**는 자기회귀 (autoregressive) 트랜스포머로, 본질적으로 시각-언어 모델 (vision-language model)입니다. 이 타워는 멀티모달 입력 (텍스트 설명, 이미지, 비디오 프레임)을 받아 물리적 장면의 문맥적 이해(객체 위치, 운동 역학, 공간적 관계 및 작업 의도)를 구축합니다. Reasoner는 비디오 캡셔닝 (video captioning)이나 물리적 타당성 분석 (physical plausibility analysis)과 같은 순수 이해 작업의 경우 독립적으로 작동할 수 있습니다.

**Generator 타워 (The Generator Tower)**는 확산 기반 (diffusion-based) 트랜스포머입니다. 이 타워는 Reasoner가 생성한 추론 문맥을 받아 물리적으로 타당한 비디오 시퀀스, 동기화된 오디오, 또는 행동 궤적 (관절 각도, 그리퍼 위치, 1인칭 시점 운동)과 같은 출력을 생성합니다. Generator는 항상 두 타워를 모두 활성화하며, Reasoner의 문맥 없이는 실행될 수 없습니다.

두 타워는 3D 다차원 회전 위치 임베딩 (3D multi-dimensional rotary position embedding, mRoPE)이라고 불리는 통합된 위치 인코딩 (positional encoding) 체계를 공유하며, 이는 모든 모달리티 (modalities)에 걸쳐 공간적 및 시간적 구조를 일관되게 인코딩합니다. 이를 통해 모델은 단순히 학습 예제 사이를 보간 (interpolating)하는 것이 아니라, 학습된 물리적 제약 조건(마찰, 무게, 충돌 역학)을 새로운 구성에 적용할 수 있습니다.

그 결과, 추론과 생성이 별도의 모델 호출을 거치는 대신 단일 순전파 (forward pass) 내에서 발생합니다. 이는 물리적 AI (physical AI)에서 매우 중요한데, 생성기의 출력이 장면의 Reasoner가 이해한 내용과 물리적으로 일치해야 하기 때문입니다.

모델 변체 및 하드웨어 타겟

Cosmos 3는 두 가지 크기로 제공됩니다:

Cosmos 3 Nano (16B parameters): 워크스테이션급 하드웨어, 특히 NVIDIA RTX PRO 6000을 위해 설계되었습니다. 이 변체는 지연 시간 (latency)이 중요한 로보틱스 애플리케이션을 위한 실시간에 가까운 추론 (inference)을 목표로 합니다.
Cosmos 3 Super (64B parameters): Hopper 및 Blackwell GPU 기반의 데이터센터 배포를 위해 설계되었습니다. 이 변체는 대규모 합성 데이터 생성 (synthetic data generation) 및 고충실도 (high-fidelity) 연구를 목표로 합니다.

세 번째 변체인 Cosmos 3 Edge는 엣지 (edge)에서의 온디바이스 추론 (on-device inference)을 위해 계획되어 있으며, 이는 클라우드 연결이 불안정한 자율 주행 차량 및 임베디드 로보틱스에 유용합니다.

추론 최적화를 위해 NVIDIA는 BF16, FP8, 그리고 NVFP4 양자화 체크포인트 (quantized checkpoints)를 지원하는 NIM 마이크로서비스를 제공합니다. NVFP4 형식은 가중치 (weights)를 4비트 부동 소수점 (4-bit floating point)으로 줄여, 약간의 정밀도 손실을 감수하는 대신 BF16 대비 약 2배의 추론 속도 향상을 가능하게 합니다. 특히 Reasoner의 경우, 효율적 비디오 샘플링 (Efficient Video Sampling, EVS)이라 불리는 기술을 통해 추론 중 처리되는 비디오 토큰 (video tokens)의 수를 줄여, 이해 중심 작업의 지연 시간을 단축합니다.

실제로 무엇을 할 수 있는가

이 모델은 세 가지 광범위한 작업 범주를 지원합니다:

물리적 추론 (Physical reasoning): 긴 문맥의 비디오 이해 (Long-context video understanding, 최대 256K 토큰), 시간적 지역화 (temporal localization), 물리적 타당성 분석 ("이 블록 더미가 무너질 것인가?"), 그리고 공간적 접지 (spatial grounding)가 포함됩니다. 이러한 작업들은 Reasoner 타워만을 사용합니다.

세계 시뮬레이션 (World simulation): 초기 관찰값과 다음에 일어날 일에 대한 설명을 바탕으로 물리적 장면의 미래 상태를 예측하는 비디오 시퀀스를 생성합니다. 이는 학습 데이터 생성에 유용하며, 실제 하드웨어를 구동하지 않고도 로봇 조작 작업의 수천 가지 변형을 시뮬레이션할 수 있습니다.

액션 생성 (Action generation): 체화된 에이전트 (Embodied agents)를 위한 액션 궤적 (Action trajectories) 생성. 이 모델은 순방향 역학 (Forward dynamics; 현재 상태와 액션이 주어졌을 때 다음 상태를 예측), 역방향 역학 (Inverse dynamics; 두 상태가 주어졌을 때 어떤 액션이 전이를 일으켰는지 추론), 그리고 직접적인 정책 생성 (Direct policy generation; 작업 설명과 현재 관측이 주어졌을 때 모터 명령을 출력)을 지원합니다.

NVIDIA는 맞춤형 비디오 데이터셋에 대한 지도 미세 조정 (Supervised fine-tuning) 및 도메인 특화 로보틱스 애플리케이션을 위한 액션 사후 학습 (Action post-training)을 포함하여, 이 세 가지 카테고리 모두에 대한 학습 레시피 (Training recipes)를 오픈 소스로 공개했습니다. 또한 이번 출시에는 로보틱스, 물리 시뮬레이션, 공간 추론, 인간의 움직임, 자율 주행 및 창고 운영을 아우르는 6개의 합성 데이터 생성 (Synthetic data generation) 데이터셋이 포함되어 있습니다.

이를 둘러싼 생태계

Cosmos 3는 OpenMDW-1.1 라이선스 하에 출시되었으며, 가중치 (Weights), 코드 및 학습 레시피는 GitHub와 Hugging Face에서 확인할 수 있습니다. Hugging Face의 Diffusers 라이브러리는 Cosmos3OmniPipeline 클래스를 통해 이를 지원하며, 이를 통해 기존 생성 워크플로우에 쉽게 통합할 수 있습니다.

NVIDIA는 모델 출시와 함께 Cosmos Coalition도 출범했습니다. 이는 Agile Robots, Black Forest Labs, Runway, Skild AI를 포함한 파트너 그룹으로, 오픈 월드 모델 (Open world model) 개발에 관한 평가 기술, 학습 데이터 및 연구를 공유하는 데 집중합니다.

기술 보고서 (Technical report)는 전체 아키텍처, 학습 방법론 및 벤치마크 결과를 상세히 다룹니다. NVIDIA 개발자 블로그 게시물 (NVIDIA Developer Blog post)은 배포 및 미세 조정 (Fine-tuning) 워크플로우에 대한 실질적인 가이드를 제공합니다.

한계점

통합된 아키텍처가 잘 튜닝된 파이프라인보다 자동으로 더 낫다고 할 수는 없습니다. Two-tower 설계는 모든 생성 작업에서 두 개의 타워를 모두 실행해야 함을 의미하며, 이는 단독형 확산 모델 (Standalone diffusion model)보다 연산 비용이 더 많이 듭니다. 물리적 추론 없이 비디오 생성만 필요한 애플리케이션의 경우, 특화된 모델이 더 빠르고 저렴할 가능성이 높습니다.

비디오를 위한 256K 토큰 컨텍스트 윈도우 (Context window)는 크지만, 실시간 프레임 레이트의 고해상도 비디오는 모델이 처리할 수 있는 속도보다 더 빠르게 토큰을 생성합니다. 복잡한 장면을 위한 실시간 추론 (Real-time inference)은 NVFP4 양자화 (Quantization)를 적용하더라도 여전히 하드웨어적인 과제로 남아 있습니다.

액션 생성 (Action generation) 능력은 정교한 조작 (Dexterous manipulation) 측면에서 아직 초기 단계입니다. 통제된 실험실 환경에서 로봇 팔의 관절 각도 (Joint angles)를 생성하는 것은 실제 세계의 가변성을 다루는 것과는 다릅니다. 이 모델의 가치는 주로 합성 데이터 생성 (Synthetic data generation) 및 사전 학습 (Pre-training)에 있으며, 생산용 로봇에 즉시 투입 가능한 정책 (Policy)으로서의 역할은 아닙니다.

요약

Cosmos 3는 통합된 물리적 AI 모델을 향한 기술적으로 흥미로운 단계입니다. 자기회귀적 추론기 (Autoregressive reasoner)와 확산 기반 생성기 (Diffusion-based generator)를 단일 순전파 (Forward pass) 과정에서 결합하는 Mixture-of-Transformers 설계는 물리적 AI 파이프라인의 실제적인 아키텍처 문제를 해결합니다. 가중치 (Weights), 학습 레시피 (Training recipes), 그리고 합성 데이터셋의 공개는 로보틱스 및 자율 시스템을 연구하는 연구자와 개발자들이 접근하기 용이하게 만듭니다. 추론 비용과 실제 환경에서의 견고함 (Robustness)에 관한 실질적인 한계는 분명히 존재하지만, 이 아키텍처는 별개의 모델들을 체인 형태로 연결하는 것보다 더 깔끔한 기반을 제공합니다.

주요 출처: NVIDIA Cosmos 3 출시 발표 | 참고 자료: NVIDIA Developer Blog, Hugging Face blog, 기술 보고서