arXiv논문2026. 06. 16. 13:56

ROVE: 강화학습을 통한 휴머노이드 조작을 위한 인간 개입의 활용

요약

ROVE는 불완전한 인간의 개입 데이터를 활용하여 휴머노이드 VLA 모델을 학습시키는 강화학습 프레임워크입니다. 낙관적 가치 추정(OVE)과 교차 체형 비디오를 통해 데이터의 품질 문제를 해결하고 정교한 조작 성능을 구현합니다.

핵심 포인트

인간의 개입을 활용한 휴머노이드 VLA 사후 학습 프레임워크 ROVE 제안
낙관적 가치 추정(OVE)을 통해 불완전한 개입 데이터 중 가치 높은 행동 우선 학습
교차 체형 인간 경험 비디오를 통합하여 실패 및 복구 모드 학습 강화
실제 휴머노이드 조작 작업에서 기존 경험 학습 베이스라인 대비 우수한 성능 입증

인간의 개입(Human interventions)은 사후 학습(post-training) 단계의 시각-언어-행동 (Vision-Language-Action, VLA) 모델에 중요한 교정 신호를 제공합니다. 그러나 복잡한 전신 운동학(whole-body kinematics)과 정교한 손 제어(dexterous-hand control)로 인해, 휴머노이드의 원활한 개입을 가능하게 하는 것은 매우 어려운 시스템적 과제입니다. 결과적으로 수집된 개입 궤적(intervention trajectories)은 종종 최적의 상태가 아니며, 인간의 개입을 전문가 감독(expert supervision)으로 사용하는 방법론들은 주저하거나 비효율적이며 심지어 오류가 있는 행동까지 흡수할 수 있습니다. 이러한 시스템적 및 알고리즘적 과제를 모두 해결하기 위해, 우리는 불완전한 인간 개입을 활용하여 휴머노이드 VLA 사후 학습을 수행하는 강화학습 (Reinforcement Learning, RL) 프레임워크인 ROVE를 제안합니다. 첫째, ROVE는 휴머노이드 조작을 위한 배포 및 개입 데이터를 수집할 수 있는 인간 참여형 (human-in-the-loop) 파이프라인을 도입합니다. 둘째, 혼합된 품질의 궤적으로부터 가치가 높은 행동을 우선시하기 위해 낙관적 가치 추정 (Optimistic Value Estimation, OVE)을 활용합니다. 가치 추정을 더욱 견고하게 만들기 위해, 우리는 교차 체형 (cross-embodiment) 인간 경험 비디오를 통합하여 롱테일 (long-tailed) 실패 및 복구 모드에 대한 풍부한 감독을 제공합니다. 이를 통해 생성된 비평가 (critic)는 유익한 이점 신호 (advantage signals)를 생성하여, VLA 액터 (actor)가 모든 행동을 무차별적으로 모방하기보다 가치가 높은 행동에 집중하도록 유도합니다. 접촉이 많고 미세한 제어가 필요한 도전적인 실제 휴머노이드 조작 작업에서, ROVE는 경험 학습 (experience-learning) 베이스라인보다 뛰어난 성능을 보이며 여러 번의 롤아웃-개입 (rollout-intervention) 반복을 통해 지속적으로 개선됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

ROVE: 강화학습을 통한 휴머노이드 조작을 위한 인간 개입의 활용

요약

핵심 포인트

댓글