Nvidia의 새로운 월드 모델, 로봇의 세상 탐색을 돕다
요약
Nvidia가 로봇과 자율 주행 차량의 물리적 환경 이해를 돕는 오픈 월드 모델 'Cosmos 3'를 공개했습니다. 20조 개의 멀티모달 토큰을 학습하여 단순 영상 생성을 넘어 기계의 움직임과 액션을 모델링하는 데 특화되어 있습니다.
핵심 포인트
- 20조 개의 멀티모달 토큰 기반 학습
- 단순 영상 생성을 넘어 액션 데이터 모델링
- 물리적 정확도 중심의 Super 및 Nano 모델 제공
- 로봇 및 자율 주행을 위한 시뮬레이션 환경 구축 가능
Nvidia는 로봇, 자율 주행 차량 (autonomous vehicles), 그리고 기타 물리적 시스템이 실제 환경을 더 잘 이해하고 예측할 수 있도록 설계된 오픈 AI 월드 모델 (world model)인 Cosmos 3를 공개했습니다.
중요한 이유: Nvidia는 칩을 넘어 AI 모델과 소프트웨어로 영역을 계속 확장하고 있으며, 물리적 AI (physical AI) 개발을 위한 기초 플랫폼이 되기 위해 입지를 다지고 있습니다.
뉴스 핵심: Nvidia는 거의 10억 개의 이미지, 4억 개의 실제 및 합성 비디오, 주변 오디오, 텍스트, 그리고 인간과 로봇으로부터 얻은 액션 데이터 (action data)를 포함하여 20조 개의 멀티모달 (multimodal) 토큰으로 Cosmos 3를 학습시켰다고 밝혔습니다.
- 해당 액션 데이터는 Cosmos를 일반적인 비디오 생성기 (video generator)와 다르게 만드는 요소입니다. Nvidia Cosmos Lab의 부사장인 Ming-Yu Liu는 Axios에 이것이 단순히 장면이 어떻게 보이는지가 아니라, 기계가 어떻게 움직이는지를 모델링하기 위한 것이라고 말했습니다. 자율적인 액션 (Autonomous actions)이 핵심입니다.
- 개발자들은 Cosmos 3를 사용하여 물리적 환경에서의 액션을 시뮬레이션할 수 있으며, 그 위에 로봇 및 기타 기계를 위한 작업 특화 모델 (task-specific models)을 구축할 수 있습니다.
- Cosmos 3는 로봇 관절 각도, 그리퍼 (gripper) 위치, 궤적 (trajectories)과 같은 액션 데이터를 생성하도록 설계되었으며, 이는 기계가 물리적 세계를 탐색하고 조작하는 법을 학습하는 데 도움을 줄 수 있습니다.
행간의 의미: Liu는 Cosmos가 초기 Nemotron 제품군과 유사한 오픈 모델이기 때문에, 하드웨어 제조사들이 자신의 필요에 맞게 Cosmos를 맞춤화하기가 더 쉽고, 향후 버전이 산업계의 요구 사항에 더 밀접하게 부합하도록 보장할 수 있다고 말했습니다.
- Nvidia는 또한 이 노력을 지원하는 기업 연합을 구축하고 있습니다. 초기 파트너로는 Agile Robots, Black Forest Labs, Runway 등이 포함됩니다.
- Nvidia는 Cosmos가 로봇 충돌이나 특이한 도로 상황과 같이 반복적으로 포착하기 어렵고, 비용이 많이 들거나 위험한 희귀하거나 위험한 시나리오를 생성할 수 있다고 밝혔습니다.
Zoom in: Nvidia는 즉시 두 가지 버전을 출시합니다. 로봇 및 자율 주행 차량 학습과 같이 높은 물리적 정확도 (physics accuracy)가 요구되는 작업을 위한 "super" 모델과, 수 분의 일 초 만에 결과를 생성할 수 있는 "nano" 모델입니다.
- 로컬에서 실행 가능한 "edge" 모델도 곧 출시될 예정이라고 Nvidia는 밝혔습니다.
Zoom out: 기업들이 챗봇과 에이전트 (agents)의 지능을 활용하여 실제 세계의 작업을 수행하도록 만들기를 점점 더 원함에 따라, 월드 모델 (World models)은 AI의 핵심 성장 분야가 되었습니다.
- 이 분야의 유망한 스타트업으로는 Fei-Fei Li의 World Labs와 Yann LeCun의 AMI Labs가 있습니다.
- "궁극적으로 월드 모델이 달성하고자 하는 것은 물리적 에이전트 (physical agents)가 더 범용성 (generalizable)을 갖도록 돕는 것입니다"라고 Liu는 말했습니다. "더 범용성을 갖기 위해서는 세상이 어떻게 작동하는지 이해하여 세상을 이해해야 하고, 그래야 계획을 세울 수 있습니다."
Bottom line: Nvidia의 베팅은 차세대 AI가 단순히 질문에 답하거나 이미지를 생성하는 것에 그치지 않고, 물리적 세계에서 예측, 시뮬레이션 및 행동해야 한다는 것입니다. 그리고 Nvidia는 개발자들이 시작하는 지점이 자사의 오픈 모델 (open models)과 인프라 (infrastructure)가 되기를 원합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Axios의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기