arXiv논문2026. 05. 22. 11:20

Pre-VLA: 신뢰할 수 있는 Vision-Language-Action 및 World-Model Rollout을 위한 선제적 런타임 검증

요약

VLA 모델과 World Model의 액션 생성 불확실성을 해결하기 위해 선제적 런타임 검증 아키텍처인 Pre-VLA를 제안합니다. 물리적 실행 전 액션의 안전 신뢰도와 이점 점수를 예측하여 저품질 액션을 필터링하고 성공률을 높입니다.

핵심 포인트

액션 실행 전 유효성을 검증하는 Pre-VLA 아키텍처 제안
멀티모달 백본과 이중 분기 헤드를 통한 안전 및 이점 예측
LIBERO 벤치마크에서 폐루프 성공률 30.79%에서 37.62%로 향상
적응형 리샘플링을 통해 계산 효율성과 오류 누적 완화

대규모 Vision-Language-Action (VLA) 모델과 생성형 World Model (WM)이 장기적(long-horizon) 체화된 지능 (embodied intelligence)을 발전시켜 왔지만, 학습 기반 액션 생성 (action generation)의 불확실성으로 인해 실제 배포에는 여전히 어려움이 남아 있습니다. 저품질 액션은 실행 중 물리적 실패를 일으키거나, 불필요한 렌더링 비용을 동반한 오도된 World Model Rollout으로 이어질 수 있습니다. 이 문제를 해결하기 위해, 우리는 물리적 실행 또는 World Model 상상 (imagination) 이전에 선제적으로 액션 유효성을 평가하는 통합 런타임 검증 아키텍처인 Pre-VLA를 제안합니다. Pre-VLA는 모달리티 인식 풀링 (modality-aware pooling)을 갖춘 효율적인 멀티모달 백본 (multimodal backbone)과 경량화된 이중 분기 헤드 (dual-branch head)를 활용하여, 후보 액션 청크 (action chunks)에 대한 안전 신뢰도 (safety confidence)와 Critic 유도 이점 점수 (critic-derived advantage scores)를 모두 예측합니다. 심각한 클래스 불균형 (class imbalance)과 불안정한 경계 결정 (boundary decisions)을 처리하기 위해, 우리는 Focal 분류 (Focal classification), 이점 회귀 (advantage regression), 그리고 소프트 임계값 보정 (soft-threshold calibration)을 결합한 멀티태스크 목적 함수 (multi-task objective)로 Pre-VLA를 학습시킵니다. 배포 시에는 이중 모드 선제적 리샘플링 스케줄러 (dual-mode preemptive resampling scheduler)가 저품질 액션을 필터링하고 제한된 계산 예산 내에서 적응형 리샘플링 (adaptive resampling)을 트리거합니다. LIBERO 벤치마크에서의 실험 결과, Pre-VLA는 RynnVLA-002 대비 4개 스위트 전체에서 평균 폐루프 성공률 (closed-loop success rate)을 30.79%에서 37.62%로 향상시켰으며, 작업 실행 단계를 줄이고, 액션 청크당 평균 183.9ms의 전방향 검증 시간 (forward verification time)을 달성하였으며, World Model Rollout에서의 오류 누적을 완화했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Pre-VLA: 신뢰할 수 있는 Vision-Language-Action 및 World-Model Rollout을 위한 선제적 런타임 검증

요약

핵심 포인트

댓글