NVIDIA 의 GTC 2025 발표: 물리 AI 개발자를 위한 새로운 오픈 모델 및 데이터셋

요약

NVIDIA가 GTC 2025에서 물리 AI 개발자를 위한 혁신적인 오픈 모델과 데이터셋을 발표했습니다. 주요 내용으로는 가상 세계 장면 생성에 높은 제어력을 제공하는 'Cosmos Transfer'와 로봇 훈련용 대규모 데이터를 담은 'Physical AI Dataset'이 있습니다. 또한, 인간형 로봇의 추론 및 조작 기술을 위한 최초의 오픈 파운데이션 모델인 'Isaac GR00T N1'도 공개되어, 자율 시스템 개발에 새로운 지평을 열었습니다.

핵심 포인트

**Cosmos Transfer:** 70억 개 파라미터 규모로, 구조적 입력(깊이 맵, 세그멘테이션 맵 등)을 활용하여 사진처럼 현실적인 제어 가능한 세계 장면 및 비디오 시퀀스를 생성합니다.
**Physical AI Dataset:** 로봇 훈련에 최적화된 상용급 데이터셋으로, 15TB 이상의 궤적 데이터를 포함하며 후속 파운데이션 모델 학습에 사용됩니다.
**Isaac GR00T N1:** 인간형 로봇을 위한 오픈 파운데이션 모델로, 언어 및 이미지 등 멀티모달 입력을 받아 복잡한 조작 작업을 수행하는 강력한 일반화 능력을 보여줍니다.
**시스템 아키텍처:** Isaac GR00T N1은 '시각-언어 모델(System 2)'과 '확산 변환기(System 1)'의 이중 시스템 구조를 통해 계획 수립부터 실제 동작 제어까지 통합적으로 처리합니다.

Cosmos Transfer 는 NVIDIA 의 Cosmos™ 월드 파운데이션 모델 (WFMs) 에 새로 추가된 물리 AI 데이터셋으로, 가상 세계 장면 생성에서 새로운 수준의 제어력과 정확도를 제공합니다.

70 억 파라미터 크기로 제공되는 이 모델은 구조적 입력을 사용하여 고해상도 세계 장면을 생성하는 데 멀티컨트롤 (multicontrols) 을 활용하여 정확한 공간 정렬과 장면 조성을 보장합니다. 각 센서 모달리티로 시뮬레이션된 세계를 캡처하기 위해 개별 ControlNets 를 별도로 훈련한 것으로 구축되었습니다.

입력 유형은 3D 박스맵, 궤적 맵, 깊이 맵, 세그멘테이션 맵 등을 포함합니다. 추론 시간에는 개발자는 세그멘테이션 맵, 깊이 맵, 에지 맵, 인간 동작 키포인트, LiDAR 스캔, 궤적, HD 맵, 3D 박스 등 구조적 시각 또는 기하학적 데이터를 사용하여 출력을 안내할 수 있습니다. 각 제어 분지의 제어 신호는 적응형 공간시간 제어 맵과 곱해진 후 합산된 다음 기본 모델의 트랜스포머 블록에 추가됩니다. 생성된 출력은 제어된 레이아웃, 객체 배치 및 운동이 있는 사진적 현실적인 비디오 시퀀스입니다. 개발자는 구조와 외관을 유지하거나 구조를 유지하면서 외관 변화를 허용하는 방식으로 출력을 여러 가지로 제어할 수 있습니다.

Cosmos Transfer 는 다양한 환경과 날씨 조건에서 출력합니다. Cosmos Transfer 와 NVIDIA Omniverse 플랫폼을 결합하면 로봇 및 자율주행차 개발에 대량으로 제어 가능한 합성 데이터 생성이 가능합니다. GitHub 에서 더 많은 Cosmos Transfer 예제를 확인하세요.

Cosmos Transfer 샘플은 오픈 모달리티 기반 모델로 구축되어 자율주행차용으로도 제공됩니다.

NVIDIA 는 물리 AI 개발을 위한 Hugging Face 의 오픈소스 데이터셋인 Physical AI Dataset도 출시했습니다. 이 상용급, 사전 검증된 데이터셋은 로봇 훈련용 32 만 개 이상의 궤적을 나타내는 15 테라바이트의 데이터를 포함하며, SimReady 컬렉션 및 기타 1,000 개의 Universal Scene Description (OpenUSD) 자산까지 포함합니다.

이 데이터셋은 Cosmos Predict 월드 파운데이션 모델과 같은 후 훈련 파운데이션 모델을 위해 설계되어 개발자에게 고품질의 다양한 데이터를 제공하여 AI 모델을 향상시킵니다.

또한 NVIDIA Isaac GR00T N1 의 출시로 흥미로운 발표가 이어졌습니다. 이는 일반화된 인간형 로봇 추론 및 기술을 위한 세계 최초의 오픈 파운데이션 모델입니다. 이 크로스 임베디먼트 모델은 언어 및 이미지 등 멀티모달 입력을 받아 다양한 환경에서 조작 작업을 수행합니다. NVIDIA Isaac GR00T-N1-2B 모델은 Hugging Face 에서 이용 가능합니다.

Isaac GR00T N1 는 실제 캡처 데이터, NVIDIA Isaac GR00T Blueprint 의 구성 요소를 사용하여 생성된 합성 데이터, 인터넷 규모의 비디오 데이터를 포함한 광범위한 인간형 데이터셋으로 훈련되었습니다. 특정 임베디먼트, 작업 및 환경에 대해 후 훈련을 통해 적응 가능합니다.

Isaac GR00T N1 는 Fourier GR-1 및 1X Neo 등 다양한 인간형 로봇에 조작 동작을 가능하게 하기 위해 단일 모델과 가중치 집합을 사용합니다. 이는 한 손 또는 두 손으로 물체를 잡거나 조작하고, 팔 사이사이에 물건을 옮기는 등 다양한 작업에서 강력한 일반화 능력을 보여줍니다. 또한 지속된 맥락 이해와 다양한 기술의 통합이 필요한 복잡한 다단계 작업을 실행할 수 있습니다. 이러한 기능은 재료 처리, 포장, 검사 응용 분야에서 적합합니다.

Isaac GR00T N1 는 인간 인지에서 영감을 받은 이중 시스템 아키텍처를 특징으로 하며, 다음과 같은 보완적인 구성 요소로 이루어져 있습니다:

시각-언어 모델 (System 2): 이 체계적 사고 시스템은 NVIDIA-Eagle 와 SmolLM-1.7B 를 기반으로 합니다. 환경과 지시를 시각 및 언어 명령어로 해석하여 로봇이 환경을 이해하고 지시를 추론하며 올바른 동작을 계획할 수 있게 합니다.

확산 변환기 (Diffusion Transformer) (System 1): 이 행동 모델은 시스템 2 가 만든 행동 계획을 정확한 연속적인 로봇 동작으로 번역하여 로봇의 움직임을 제어합니다.

포스트 트레이닝은 자율 시스템 발전과 하류 물리 AI 작업에 특화된 모델을 만드는 길입니다.

Cosmos Predict 및 Cosmos Transfer 추론 스크립트를 GitHub 에서 확인하세요. 더 자세한 내용은 Cosmos Transfer 연구 논문을 참조하세요.

NVIDIA Isaac GR00T-N1-2B 모델은 Hugging Face 에서 이용 가능합니다. 커스텀 사용자 데이터셋을 사용한 포스트 트레이닝용 샘플 데이터셋 및 PyTorch 스크립트는 Hugging Face LeRobot 형식과 호환되며 GitHub 에서 이용 가능합니다. Isaac GR00T N1 모델에 대한 자세한 정보는 연구 논문을 참조하세요.

더 많은 업데이트를 위해 NVIDIA 를 Hugging Face 에서 팔로우하세요.

AI 자동 생성 콘텐츠

원문 바로가기

NVIDIA 의 GTC 2025 발표: 물리 AI 개발자를 위한 새로운 오픈 모델 및 데이터셋

요약

핵심 포인트

댓글