NVIDIA, 물리 AI를 위한 고급 추론 능력 갖춘 'Cosmos Reason 2' 공개
요약
NVIDIA가 개방형(open) 추론 비전-언어 모델(VLM)의 최신 버전인 Cosmos Reason 2를 출시하며 물리적 인공지능(Physical AI) 분야에 혁신을 가져왔습니다. 이 모델은 기존 VLM들이 어려움을 겪던 다단계 계획 수립, 불확실성 처리 등 인간적인 추론 능력을 강화했습니다. 특히 시공간 이해력과 정밀도를 높였으며, 2B 및 8B 파라미터 크기로 에지부터 클라우드까지 유연하게 배포 가능합니다. 자율주행차(AV) 영상 분석, 로봇 계획 수립 등 실제 산업 응용 사례에서 뛰어난 성능을 입증하며 개발자들에게 강력한
핵심 포인트
- Cosmos Reason 2는 물리적 AI를 위한 최신 개방형 추론 VLM으로, 시공간 이해력과 시간 스탬프 정밀도를 대폭 개선했습니다.
- 모델은 2B 및 8B 파라미터 크기로 제공되어 에지 컴퓨팅부터 클라우드까지 유연한 배포가 가능하며, 입력 토큰 길이는 16K에서 256K로 확장되었습니다.
- 자율주행차(AV) 영상 분석 등 실제 응용 사례에서 Cosmos Reason 2-8B를 활용하여 BLEU 점수 10.6% 향상 및 MCQ 기반 VQA 0.67%p 개선을 달성했습니다.
- 로봇의 의도적이고 체계적인 의사결정을 위한 '행동(Action)' 능력을 추가하여, 로보틱스 분야에서 강력한 비전-언어-행동(VLA) 모델 역할을 수행합니다.
NVIDIA가 개방형 추론 비전-언어 모델(Vision-Language Model, VLM)의 최신 버전인 Cosmos Reason 2를 발표하며 물리적 인공지능(Physical AI) 분야에 새로운 이정표를 세웠습니다. 기존 VLM들이 이미지 내 객체 인식 등 정적인 작업에서는 뛰어난 성능을 보였으나, 인간이 자연스럽게 수행하는 다단계 계획 수립, 불확실성 처리, 신규 상황 적응 등의 복잡한 추론 과정에는 한계가 있었습니다.
Cosmos Reason 2는 이러한 간극을 메우기 위해 설계되었으며, 로봇이나 AI 에이전트가 인간처럼 물리적 세계를 '보고(See)', '이해하고(Understand)', '계획하며(Plan)', '행동할 수 있도록(Act)' 하는 능력을 부여합니다. 이 모델은 상식, 물리학 원리, 사전 지식을 활용하여 객체가 공간과 시간 속에서 어떻게 움직이는지 인식함으로써 복잡한 작업을 단계별로 해결하는 데 도움을 줍니다.
주요 기술적 개선 사항:
- 향상된 시공간 이해 및 정밀도: Cosmos Reason 2는 기존 대비 향상된 시공간(spatio-temporal) 이해력과 시간 스탬프(timestamp)의 정밀도를 제공합니다.
- 유연한 배포와 확장성: 2B와 8B 파라미터 크기 모델로 최적화되어 에지 디바이스부터 클라우드 환경까지 유연하게 배포할 수 있습니다. 또한, 입력 토큰 길이를 Cosmos Reason 1의 16K에서 256K로 대폭 늘려 장문맥(long-context) 이해 능력을 강화했습니다.
- 강화된 시각 인식 기능: 2D/3D 포인트 위치 파악(point localization), 바운딩 박스 좌표, 궤적 데이터(trajectory data), OCR 지원 등 공간 및 시각 인지 기능을 확장하여 지원합니다.
- VLA (Vision-Language-Action) 모델 통합: 단순한 이해를 넘어 실제 행동까지 계획할 수 있도록 발전했습니다. 로봇의 의도적인 결정 과정을 위한 '행동' 능력을 제공하며, 궤적 좌표(trajectory coordinates)를 결정하는 기능이 추가되었습니다.
산업별 응용 사례 및 성능 입증:
- 자율주행차 (AV): Uber는 Cosmos Reason 2-8B를 활용하여 AV 훈련 데이터에 대한 정확하고 검색 가능한 비디오 캡션을 생성하는 실험을 진행했습니다. 그 결과, BLEU 점수가 10.6% 향상되었고, MCQ 기반 VQA(Visual Question Answering)가 0.67%p 개선되는 등 측정 가능한 성능 향상을 입증했습니다.
- 비디오 분석 및 데이터 주석: 개발자들은 Cosmos Reason 2를 사용하여 대규모 비정형 학습 데이터셋에 대한 고품질의 자동화된 주석(annotation)과 검토가 가능합니다. 또한, NVIDIA Blueprint for Video Search and Summarization (VSS)을 통해 영상 검색 및 요약 AI 에이전트 개발을 가속화할 수 있습니다.
- 로보틱스: Encord와 같은 플랫폼은 Cosmos Reason 2를 Data Agent 라이브러리에 네이티브하게 통합하여 로봇 공학 및 물리적 AI 사용 사례에 VLA로 활용하고 있습니다. Hitachi, Milestone 등 여러 기업들이 이를 통해 교통 안전 및 작업장 안전 분야의 로봇 기술을 발전시키고 있습니다.
추가 모델:
NVIDIA는 Cosmos Reason 2 외에도 다음과 같은 관련 모델들을 함께 소개했습니다:
- Cosmos Predict: 텍스트, 이미지 또는 비디오 입력을 기반으로 물리적 세계의 미래 상태를 예측하는 생성형 AI 모델입니다. 최대 30초 분량의 물리적/시간적으로 일관된 클립을 생성할 수 있습니다.
- Cosmos Transfer 2.5: 단일 시뮬레이션이나 공간 영상을 다양한 환경 및 조명 조건으로 변환(style transfer)하는 경량 다중 제어 모델입니다.
- NVIDIA GR00T N1.6: 휴머노이드 로봇에 특화된 개방형 추론 VLA 모델로, 더 나은 추론과 상황 이해를 위해 Cosmos Reason을 활용합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기