arXiv논문2026. 06. 25. 22:34

ROAD-VLA: Vision-Language-Action 모델을 위한 자기 증류(Self-Distillation) 기반의 강건한 온라인 적응

요약

ROAD-VLA는 시각-언어-행동(VLA) 모델의 효과적인 온라인 적응을 위해 자기 증류(Self-Distillation) 기반의 프레임워크를 제안합니다. 액션 공간에 직접 근사적 교사를 구축하여 희소 보상 문제를 해결하고, 다양한 로봇 조작 환경에서 기존 PPO를 능가하는 성능을 입증했습니다.

핵심 포인트

VLA 모델의 온라인 적응을 위한 자기 증류 프레임워크 ROAD-VLA 제안
기호적 가이드와 저수준 행동 간의 모달리티 간극 문제 해결
보정된 어드밴티지를 활용해 액션 토큰 로짓에 직접 근사적 교사 구축
희소 보상을 조밀한 토큰 수준의 감독 신호로 변환하여 학습 효율 증대
7개의 로봇 조작 환경 테스트에서 PPO 대비 우수한 강건성 입증

고차원 자기회귀(autoregressive) 액션 정책(action policies)에 대해 희소 보상(sparse rewards)이 약한 감독(supervision)을 제공하기 때문에, 시각-언어-행동 (Vision-Language-Action, VLA) 모델의 효과적인 온라인 적응은 여전히 어려운 과제로 남아 있습니다. 원칙적으로 자기 증류 (self-distillation)가 더 조밀한 학습 신호를 제공할 수 있음에도 불구하고, 우리는 데모(demonstrations), 검색된 경험(retrieved experiences) 또는 상위 수준의 계획(high-level plans)에 조건화된 텍스트 기반의 특권 교사(privileged teachers)가 VLA 적응에 효과적이지 않다는 것을 발견했습니다. 이는 기호적 가이드(symbolic guidance)와 저수준 로봇 행동(low-level robot actions) 사이의 모달리티 간극(modality gap)을 드러냅니다. 우리는 보정된 어드밴티지 추정치(calibrated advantage estimates)를 사용하여 액션 토큰 로짓(action-token logits)을 섭동(perturbing)함으로써 액션 공간(action space)에 직접 근사적 교사(proximal teacher)를 구축하는 어드밴티지 가이드 자기 증류 프레임워크인 ROAD-VLA를 제안합니다. 이는 교사를 현재 정책(policy)에 가깝게 유지하면서 희소 보상을 조밀한 토큰 수준의 감독(token-level supervision)으로 변환합니다. 나아가 우리는 보정된 어드밴티지와 정확한 교사 매칭(teacher matching) 하에서 정책 개선 하한(policy-improvement lower bound)을 도출합니다. 분포 내(in-distribution) 및 분포 외(out-of-distribution) 변화가 있는 7개의 로봇 조작 환경 전반에서, ROAD-VLA는 거의 모든 설정에서 PPO를 능가하며 강건한 온라인 VLA 적응 능력을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ROAD-VLA: Vision-Language-Action 모델을 위한 자기 증류(Self-Distillation) 기반의 강건한 온라인 적응

요약

핵심 포인트

댓글