Nvidia, CVPR에서 물리적 AI 에이전트 기술 및 32B VLA 모델 공개

요약

Nvidia가 CVPR에서 자율 주행 및 로보틱스 워크플로우를 혁신하기 위한 물리적 AI 에이전트 기술과 32B 규모의 VLA 모델인 Alpamayo 2 Super를 공개했습니다. Cosmos 3를 포함한 새로운 모델들은 장면 재구성, 데이터 생성, 정책 평가를 통합하여 연구 병목 현상을 해결하는 데 집중합니다.

핵심 포인트

32B 파라미터 규모의 오픈 VLA 모델 Alpamayo 2 Super 출시
물리적 AI를 위한 최초의 풀 옴니모델 Cosmos 3 발표
3D 가우시안 장면 재구성을 위한 InstantNuRec 기술 공개
파편화된 로보틱스 연구 워크플로우 자동화 및 통합 지향

Nvidia는 자율 주행 차량 (AV) 및 로보틱스 워크플로우를 자동화하고 파편화된 툴링 병목 현상을 해결하기 위해 CVPR에서 물리적 AI 에이전트 기술과 32B VLA 모델을 출시했습니다.

CVPR에서 Nvidia는 물리적 AI 에이전트 기술과 32B 파라미터 규모의 VLA 모델인 Alpamayo 2 Super를 출시했습니다. 이러한 행보는 자율 주행 차량 (AV) 및 로보틱스 연구의 파편화된 워크플로우 병목 현상을 겨냥한 것입니다.

주요 사실

Alpamayo 2 Super: AV를 위한 32B 파라미터 규모의 오픈 VLA 모델.
Cosmos 3: 물리적 AI를 위한 최초의 풀 옴니모델 (full omnimodel).
InstantNuRec: 빠른 3D 가우시안 (3D Gaussian) 장면 재구성을 가능하게 함.
AlpaGym: 수천 개의 GPU에 걸쳐 강화학습 (RL) 정책 롤아웃 (rollouts)을 확장.
OmniDreams: 실시간으로 사진처럼 사실적인 카메라 프레임을 생성.

Nvidia의 CVPR 발표는 물리적 AI의 구조적 문제, 즉 모델 성능과 생산 워크플로우 사이의 간극을 다룹니다. 이 회사는 장면 재구성, 합성 데이터 생성, 정책 평가를 자동화하도록 설계된 AI 에이전트 기술 제품군을 출시했습니다. 이러한 단계들은 현재 서로 다른 도구들을 하나로 엮어야 하는 과정을 필요로 합니다.

워크플로우 문제

물리적 AI 연구의 핵심 과제는 단순히 더 강력한 모델을 개발하는 것이 아닙니다. 모델을 중심으로 실제 세계의 장면을 재구성하고, 엣지 케이스 (edge-case) 시나리오를 생성하며, 정책을 훈련하고, 행동을 평가하며, 빠르게 반복하는 전체 워크플로우를 구축하는 것입니다. 오늘날 이러한 단계들은 별개의 도구들로 파편화되어 있으며, 연구자들이 이를 하나로 맞추기 위해 고군분투함에 따라 실험 속도가 늦춰지고 있습니다 Nvidia의 블로그 포스트에 따르면.

Alpamayo 2 Super 및 Cosmos 3

Nvidia Alpamayo 2 Super는 추론, 계획 및 행동을 수행하는 320억 파라미터 규모의 오픈 소스 추론 시각-언어-행동 (VLA, Vision-Language-Action) 모델입니다. 이는 현재까지 Nvidia가 선보인 가장 강력한 오픈 소스 자율주행 파운데이션 모델 (Foundation Model)을 나타냅니다. 이번 주 초, Nvidia는 물리적 AI를 위한 오픈 프론티어 모델이자 시각적 추론, 세계 모델 (World Model) 및 행동 생성을 통합한 세계 최초의 풀 옴니모델 (Full Omni-model)인 Cosmos 3를 발표했습니다. [Nvidia에 따르면] Cosmos 3는 물리적 AI의 핵심인 오픈 모델 공개 리더보드 전반에서 선두를 달리고 있습니다.

NVIDIA GTC Taipei at COMPUTEX: Live Updates on What’s Next in AI

AV 및 로보틱스를 위한 에이전트 기술 (Agent Skills)

자율주행 (AV, Autonomous Vehicle) 연구자들에게 문제는 드문 상호작용, 특이한 도로 기하학적 구조, 조명 변화 및 엣지 케이스 (Edge-case) 동작과 같은 주행의 "롱테일 (Long tail)" 문제입니다. 신경 재구성 (Neural Reconstruction) 기술은 AI 에이전트가 플릿 (Fleet)에서 수집된 데이터를 시뮬레이션 및 합성 데이터 생성을 위한 편집 가능한 3D 장면으로 변환할 수 있도록 돕습니다. 이때 Nvidia Omniverse NuRec, InstantNuRec, Harmonizer 및 HiGS 가속 렌더러를 포함한 기술들이 재구성을 가속화합니다. InstantNuRec는 장면별 최적화 없이 이미지로부터 빠른 3D 가우시안 (3D Gaussian) 도로 장면 재구성을 가능하게 합니다.

‘Your Career Starts at the Beginning of the AI Revolution,’ NVIDIA CEO Tells Graduates

오픈 소스 폐쇄 루프 강화학습 (Closed-loop Reinforcement Learning) 프레임워크인 Nvidia AlpaGym은 정책 롤아웃 (Policy Rollouts)과 고충실도 시뮬레이션을 에이전트 기술과 연결함으로써 해당 접근 방식을 확장하며, 수천 개의 GPU에 걸쳐 확장 가능합니다. 행동 조건부 생성 세계 모델 (Action-conditioned Generative World Model)인 Nvidia OmniDreams는 시뮬레이션 루프에 실사 같은 렌더링을 추가하여, 정책 행동에 실시간으로 반응하는 카메라 프레임을 생성합니다.

더 넓은 맥락 (Broader Context)

이번 발표는 Nvidia가 불과 며칠 전 550B 파라미터 규모의 오픈 웨이트 (open-weight) 모델인 Nemotron 3 Ultra를 출시한 데 이어 나온 것입니다. Dell에 따르면, 이 회사는 또한 첫 번째 Vera Rubin NVL72 랙을 CoreWeave에 출하하고 있습니다. 이러한 물리적 AI (physical AI) 추진은 2026년이 모든 도메인에 걸쳐 AI 에이전트 (AI agents)의 돌파구가 될 것이라는 업계의 예측과 일치합니다 [이전 보고에 따른 업계 리더들의 의견에 의하면].

Watch NVIDIA CEO Jensen Huang’s GTC Taipei Keynote

주목해야 할 점 (What to watch)

Open Physical AI 리더보드(Leaderboard)에서 Alpamayo 2 Super 및 Cosmos 3의 채택 지표를 주시하십시오. 또한 Nvidia의 에이전트 기술이 자율주행차 (AV) 스타트업들의 시뮬레이션 소요 시간 (time-to-simulation)을 약속된 차수(order of magnitude)만큼 단축시키는지 확인하십시오. 아울러 Waymo나 Tesla와 같은 경쟁사들이 이 오픈 모델 (open models)을 채택하는지도 추적해야 합니다.

출처: blogs.nvidia.com

원문 게시: gentic.news

AI 자동 생성 콘텐츠

원문 바로가기