arXiv논문2026. 06. 09. 11:52

ReCoVLA: Vision-Language-Action 정책의 실패 복구를 위한 VLM 가이드 보상 컴파일 (VLM-Guided Reward

요약

ReCoVLA는 VLA 정책이 실패했을 때 외부 VLM을 활용해 복구 단계를 추론하고 보상을 컴파일하는 프레임워크입니다. VLM이 직접 행동을 생성하는 대신 의미론적 보상 선택기로 작동하여, 잔차 정책 학습을 통해 시뮬레이션에서 실제 환경으로의 제로샷 전이를 지원합니다.

핵심 포인트

VLM을 활용한 실패 모드 및 복구 단계 추론
고수준 실패 이해와 저수준 교정 제어의 분리
시뮬레이션 내 잔차 정책 학습을 통한 보상 컴파일
제로샷 Sim-to-Real 방식의 물리적 환경 배포 지원
기존 베이스라인 대비 성공률 대폭 향상 확인

Vision-language-action (VLA) 정책은 언어 조건부 조작 (language-conditioned manipulation)을 위한 강력한 사전 정보 (priors)를 제공하지만, 표적화된 복구가 필요한 비정상 상태 (off-nominal states)에서는 여전히 취약합니다. 우리는 사전 학습된 VLA 정책을 동결(frozen) 상태로 유지하면서, 외부 시각-언어 모델 (VLM)을 사용하여 실패 모드 (failure mode)와 복구 단계 (recovery stage)를 추론하고, 작업 관련 구성 요소로부터 구조화된 보상 (reward)을 컴파일하는 실패 조건부 잔차 복구 프레임워크인 ReCoVLA를 제안합니다. VLM을 사용하여 행동 (actions)이나 보상을 직접 생성하는 대신, ReCoVLA는 이를 의미론적 보상 선택기 (semantic reward selector)로 사용합니다. 즉, 시뮬레이션 내 잔차 정책 (residual-policy) 학습을 위한 복구 기술자 (recovery descriptor)와 보상 마스크 (reward mask)를 예측하며, 이후 학습된 복구 정책을 제로샷 시뮬레이션-투-리얼 (zero-shot sim-to-real) 방식으로 배포합니다. 이는 고수준의 실패 이해 (high-level failure understanding)를 저수준의 교정 제어 (low-level corrective control)와 분리하여 다양한 VLA를 지원할 수 있게 합니다. 단기 (short-horizon), 장기 (long-horizon), 그리고 접촉이 빈번한 (contact-rich) 조작 작업 전반에 걸친 실험 결과, ReCoVLA가 테스트된 베이스라인들보다 평균적으로 우수한 성능을 보임을 확인했습니다. 시뮬레이션에서 우리의 보상 컴파일러 (reward compiler)는 미세 조정된 (fine-tuned) $\pi_{0.5}$ 베이스라인의 평균 성공률 36.7%를 66.7%로 향상시켰습니다. 물리적 제로샷 시뮬레이션-투-리얼 (zero-shot sim-to-real) 실험에서 ReCoVLA는 61.7%의 성공률로 가장 높은 평균 성능을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ReCoVLA: Vision-Language-Action 정책의 실패 복구를 위한 VLM 가이드 보상 컴파일 (VLM-Guided Reward

요약

핵심 포인트

댓글