본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 25. 22:34

ROAD-VLA: Vision-Language-Action 모델을 위한 자기 증류(Self-Distillation) 기반의 강건한 온라인 적응

요약

ROAD-VLA는 시각-언어-행동(VLA) 모델의 효과적인 온라인 적응을 위해 자기 증류(Self-Distillation) 기반의 프레임워크를 제안합니다. 액션 공간에 직접 근사적 교사를 구축하여 희소 보상 문제를 해결하고, 다양한 로봇 조작 환경에서 기존 PPO를 능가하는 성능을 입증했습니다.

핵심 포인트

  • VLA 모델의 온라인 적응을 위한 자기 증류 프레임워크 ROAD-VLA 제안
  • 기호적 가이드와 저수준 행동 간의 모달리티 간극 문제 해결
  • 보정된 어드밴티지를 활용해 액션 토큰 로짓에 직접 근사적 교사 구축
  • 희소 보상을 조밀한 토큰 수준의 감독 신호로 변환하여 학습 효율 증대
  • 7개의 로봇 조작 환경 테스트에서 PPO 대비 우수한 강건성 입증

고차원 자기회귀(autoregressive) 액션 정책(action policies)에 대해 희소 보상(sparse rewards)이 약한 감독(supervision)을 제공하기 때문에, 시각-언어-행동 (Vision-Language-Action, VLA) 모델의 효과적인 온라인 적응은 여전히 어려운 과제로 남아 있습니다. 원칙적으로 자기 증류 (self-distillation)가 더 조밀한 학습 신호를 제공할 수 있음에도 불구하고, 우리는 데모(demonstrations), 검색된 경험(retrieved experiences) 또는 상위 수준의 계획(high-level plans)에 조건화된 텍스트 기반의 특권 교사(privileged teachers)가 VLA 적응에 효과적이지 않다는 것을 발견했습니다. 이는 기호적 가이드(symbolic guidance)와 저수준 로봇 행동(low-level robot actions) 사이의 모달리티 간극(modality gap)을 드러냅니다. 우리는 보정된 어드밴티지 추정치(calibrated advantage estimates)를 사용하여 액션 토큰 로짓(action-token logits)을 섭동(perturbing)함으로써 액션 공간(action space)에 직접 근사적 교사(proximal teacher)를 구축하는 어드밴티지 가이드 자기 증류 프레임워크인 ROAD-VLA를 제안합니다. 이는 교사를 현재 정책(policy)에 가깝게 유지하면서 희소 보상을 조밀한 토큰 수준의 감독(token-level supervision)으로 변환합니다. 나아가 우리는 보정된 어드밴티지와 정확한 교사 매칭(teacher matching) 하에서 정책 개선 하한(policy-improvement lower bound)을 도출합니다. 분포 내(in-distribution) 및 분포 외(out-of-distribution) 변화가 있는 7개의 로봇 조작 환경 전반에서, ROAD-VLA는 거의 모든 설정에서 PPO를 능가하며 강건한 온라인 VLA 적응 능력을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0