NVIDIA가 32B Robotaxi VLA (Alpamayo 2 Super)를 오픈 소스로 공개했습니다 – 아키텍처 분석

요약

NVIDIA가 32B 파라미터 규모의 오픈 소스 VLA 모델인 Alpamayo 2 Super를 공개했습니다. Cosmos 기반의 이 모델은 거시적 주행 결정과 인과관계 체인(CoC)을 출력하며, AlpaGym 프레임워크를 통해 폐쇄형 루프 강화학습을 지원합니다.

핵심 포인트

32B 파라미터 규모의 오픈 소스 VLA 모델 출시
인과관계 체인(CoC)을 통한 모델 해석 가능성 확보
AlpaGym을 활용한 폐쇄형 루프(Closed-loop) 학습 지원
추론 자동 라벨링을 통한 MLOps 효율성 극대화

수년 동안 자율주행 자동차 (AV) 산업은 단순한 전제로 운영되어 왔습니다: AI 스택이 더 독점적일수록, 경쟁 우위(competitive moat)가 더 커진다는 것입니다.

NVIDIA는 GTC Taipei에서 그 가설에 정면으로 도전했습니다.

320억 개의 파라미터를 가진 오픈 추론 시각-언어-행동 (Vision-Language-Action, VLA) 모델인 Alpamayo 2 Super를 출시하며, 그들은 오픈 소스 생태계가 그 어떤 폐쇄형 루프 (closed-loop) 방식보다 레벨 4 자율주행을 더 빠르게 가속화할 것이라는 데 베팅하고 있습니다.

만약 당신이 파운데이션 모델 (foundation models)을 평가하는 AI 엔지니어이거나, 학습 컴퓨팅을 계획 중인 MLOps 개발자라면, 실제로 무엇이 변했는지, 그리고 이를 실행하기 위해 무엇이 필요한지에 대한 기술적 분석은 다음과 같습니다.

📌 요약 (TL;DR)

모델: Cosmos를 기반으로 구축된 32B 파라미터 모델입니다. 메타 액션 (Meta-Actions)과 인과관계 사슬 (Chain-of-Causation, CoC) 추적을 출력하는 VLA 모델입니다.
도구: AlpaGym (오픈 소스 폐쇄형 루프 강화학습 (RL) 프레임워크) + OmniDreams (생성형 실사 시뮬레이션).
주의사항: 폐쇄형 루프 RL을 학습하고 실행하려면 방대한 VRAM과 높은 처리량의 GPU 상호 연결 (interconnects)이 필요합니다. AV의 경쟁 우위는 더 이상 모델이 아니라

단순히 가공되지 않은 궤적 배열 (raw trajectory array)을 출력하는 대신, VLA는 _양보 (yield), 차선 변경 (lane change), 정지 (stop)_와 같은 거시적인 주행 결정 (macro driving decisions)을 출력합니다. 하위 플래너 (downstream planners)는 움직임 뒤에 숨겨진 _의도 (intent)_를 상세히 설명하는 더 풍부한 신호를 전달받게 됩니다.

4. 추론 자동 라벨링 (Reasoning Auto-Labeling, 2D Grounding)

이는 MLOps의 게임 체인저입니다. 모델은 가공되지 않은 주행 클립으로부터 고품질의 추론 라벨 (reasoning labels)을 자동으로 생성합니다. 이를 통해 데이터 파이프라인의 어노테이션 (annotation) 주기를 몇 달에서 며칠로 단축합니다.

5. 인과관계 체인 (Chain-of-Causation, CoC) 추적

모델은 모든 결정 뒤에 있는 인과적 추론 체인 (causal reasoning chain)을 명시적으로 기록합니다. 이는 독점적 스택 (Tesla FSD와 같은)을 괴롭히는 "블랙박스 (black box)" 해석 가능성 문제를 해결하며, 안전 엔지니어들에게 모델 동작을 감사할 수 있는 실제적인 메커니즘을 제공합니다.

AlpaGym: 오픈 루프 (Open-Loop) vs. 클로즈드 루프 (Closed-Loop) 학습

가중치 (weights)를 공개하는 것도 좋지만, 이를 주행할 수 있도록 학습시키는 것은 또 다른 문제입니다.

NVIDIA는 자율주행차 (AV)를 위한 고처리량 강화학습 (RL) 프레임워크인 AlpaGym을 오픈 소스로 공개합니다.

대부분의 오픈 소스 모델은 오픈 루프 평가 (open-loop evaluation) (정적이고 미리 녹화된 비디오에 대해 예측값을 점수화하는 방식)에 의존합니다. 여기에는 잘못된 예측에 따른 결과가 따르지 않습니다.

AlpaGym은 **클로즈드 루프 학습 (closed-loop training)**을 도입합니다. 모델은 AlpaSim 마이크로서비스 스택 내부에서 연속적인 결정/관찰 주기를 실행합니다. 모든 조향 선택은 환경을 변화시킵니다. 모델은 자신의 오류가 초래하는 연쇄적인 하위 효과를 경험하며, 실제 도로에 나가기 _전_에 실수로부터 회복하는 법을 배웁니다.

OmniDreams (백만 분의 일 확률의 에지 케이스 (edge cases)를 합성하는 생성형 월드 모델)와 결합될 때, 개발자들은 이제 완전한 엔드 투 엔드 (end-to-end) 시뮬레이션 파이프라인을 갖게 됩니다.

MLOps의 현실: 컴퓨팅 병목 현상 (The Compute Bottleneck)

다음은 AI 팀을 위한 인프라 측면의 현실 점검입니다.

여러분은 오픈 웨이트 (open weights)를 가지고 있습니다. AlpaGym 리포지토리 (repo)도 있습니다. 하지만 이것을 실제로 실행하려면 무엇이 필요할까요?

32B 파라미터 미세 조정 (Fine-tuning 32B Params): bf16 정밀도에서 32B 파라미터 규모일 경우, 모델 가중치(weights)만으로도 약 64GB의 VRAM을 차지합니다. 이는 옵티마이저 상태(optimizer states), 활성화 값(activations), 배치 데이터(batch data)를 고려하기 전의 수치입니다. 막대한 총 메모리를 갖춘 멀티 GPU 노드(multi-GPU nodes)가 필요합니다.
폐쇄 루프 강화학습 (Closed-Loop RL): 물리 엔진 렌더링과 모델 추론(inference)을 병렬로 수행하는 연속적인 시뮬레이션 루프는 믿을 수 없을 정도로 높은 대역폭의 GPU 상호 연결(interconnects)을 요구합니다.
시뮬레이션 생성 (Simulation Generation): OmniDreams와 신경 재구성 (Neural Reconstruction, NuRec)은 연산 집약적인 배치 워크로드(batch workloads)입니다.

만약 공유 클라우드 인스턴스(shared cloud instances)에서 이러한 파이프라인을 실행하려고 시도한다면, 학습 주기 시간(training cycle time)이 제한되어 중단될 것입니다. 판도가 바뀌었습니다: 규모가 작은 플레이어들도 이제 모델 품질로 경쟁할 수 있게 되었지만, 이는 오직 학습 주기를 처리할 수 있는 원천 컴퓨팅 자원(raw compute)을 보유했을 때만 가능합니다.

인프라가 필요하십니까?

귀하의 팀이 Alpamayo를 미세 조정(fine-tuning)하거나 무거운 RL/시뮬레이션 워크로드를 실행해야 한다면, 제한이 없는 베어메탈 하드웨어(bare-metal hardware)가 필요합니다.

GPUYard에서는 대규모 AI 학습을 위해 특수 제작된 H100 및 H200 구성을 포함한 고성능 전용 GPU 서버를 제공합니다. 공유 자원은 없습니다. 성능 저하도 없습니다.

👉 AI 워크로드를 위한 당사의 전용 GPU 설정을 여기서 확인하세요
👉 제 메인 블로그에서 전체 심층 분석 내용을 읽어보세요

Alpamayo 2 Super를 테스트할 계획이신가요? 댓글에서 VRAM 제약 사항과 미세 조정(fine-tuning) 전략에 대해 논의해 봅시다.

AI 자동 생성 콘텐츠

원문 바로가기