arXiv논문2026. 06. 16. 13:53

희소한 에피소드 결과로부터 VLA의 온라인 RL 미세 조정을 위한 계층적 이득 가중치 부여 (Hierarchical Advantage

요약

VLA 모델의 온라인 강화학습 미세 조정 시 발생하는 희소한 보상 문제를 해결하기 위해 계층적 이득 가중 행동 복제(HABC) 방법을 제안합니다. 생존 가능성과 효율성을 분리하여 학습하고 개입 인식 신용 할당을 통해 로봇 작업의 성공률을 크게 향상시켰습니다.

핵심 포인트

희소한 에피소드 결과로 인한 신용 할당 문제 해결
생존 가능성과 효율성을 위한 별도의 크리틱 헤드 활용
상태 적응형 게이트를 통한 동적 이득 병합
개입 인식 신용 할당으로 감독 정보 누출 방지
실제 로봇 실험에서 SFT 대비 대폭 향상된 성공률 달성

사전 학습된 VLA (Vision-Language-Action) 정책을 온라인 RL (Reinforcement Learning, 강화학습)을 통해 미세 조정(fine-tuning)할 때, 각 롤아웃(rollout) 에피소드는 단 하나의 이진 결과(성공 또는 실패)만을 생성하지만, 액터(actor) 업데이트에는 트랜지션(transition)별 감독(supervision)이 필요합니다. 기존 방식들은 흔히 이러한 희소한(sparse) 결과를 단일 스칼라 보상(reward) 또는 이득(advantage) 신호로 축소하는데, 이는 서로 다른 형태의 트랜지션 수준 피드백을 혼동시키며, 기본적인 작업 성공이 가능해진 이후에는 제한적인 가이드만을 제공합니다. 첫째, 단일 스칼라 신호는 생존 가능성(viability)과 효율성(efficiency)이라는 두 가지 목표를 혼동합니다. 일단 기본적인 성공이 달성되면, 이진 라벨은 효율적인 완료와 느린 완료를 구분할 수 있는 그래디언트(gradient)를 제공하지 못합니다. 둘째, 실제 환경의 롤아웃은 자율적 세그먼트(autonomous segments)와 개입 세그먼트(intervention segments)가 섞여 있습니다. 이러한 경계 전반에 걸쳐 에피소드 결과를 단순하게 할당하는 것은 잘못된 신용 할당(credit assignment)을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 서로 다른 데이터 서브셋에서 이 두 가지 목표를 위한 별도의 크리틱 헤드(critic heads)를 학습시키고, 상태 적응형 균형(state-adaptive balance)으로 그 출력들을 결합하는 계층적 이득 가중 행동 복제 (Hierarchical Advantage-Weighted Behavior Cloning, HABC)를 제안합니다. 상태 적응형 게이트 $g_t$는 그들의 1단계 이득(one-step advantages)을 병합하여, 성공이 불확실할 때는 생존 가능성을 우선시하고 생존 가능성이 높을 때만 효율성으로 전환하며, 그 결과를 액터 손실(actor loss)에 대한 트랜지션별 가중치로 변환합니다. 개입 인식 신용 할당(Intervention-aware credit assignment)은 결과 라벨을 현재 정책에 의해 실행된 세그먼트로 더욱 제한하여, 개입 경계를 넘어 감독 정보가 누출되는 것을 방지합니다. 접촉이 빈번한 세 가지 양손 작업(bimanual tasks)에 대한 실제 로봇 실험에서, HABC는 지도 미세 조정 (Supervised Fine-Tuning, SFT) 베이스라인의 36%, 44%, 12% 성공률을 92%, 88%, 38%로 끌어올렸습니다.

AI 자동 생성 콘텐츠

원문 바로가기

희소한 에피소드 결과로부터 VLA의 온라인 RL 미세 조정을 위한 계층적 이득 가중치 부여 (Hierarchical Advantage

요약

핵심 포인트

댓글