본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 18. 20:02

효율적인 시각-언어-행동(VLA) 정책 증류를 위한 오프라인 시맨틱 가이드 방식

요약

VLA-AD는 대규모 VLA 모델의 높은 추론 비용 문제를 해결하기 위해 VLM을 오프라인 시맨틱 감독관으로 활용하는 증류 프레임워크입니다. 작업 단계 앵커와 다중 프레임 동작 설명을 통해 고수준 시맨틱 가이드를 제공함으로써, 경량화된 학생 모델이 교사 모델의 성능을 거의 그대로 유지하면서도 훨씬 빠른 추론 속도를 갖도록 합니다. 이를 통해 실시간 로봇 제어에 적합한 효율적이고 강건한 정책 생성이 가능함을 입증했습니다.

핵심 포인트

  • VLM을 활용한 고수준 시맨틱 가이드(작업 단계 앵커 및 동작 방향 설명)를 통해 저수준 행동 모방의 한계를 극복함
  • OpenVLA-7B를 교사로 사용 시, 모델 크기를 44배 줄인 158M 파라미터 학생 모델로도 대등한 성능 유지
  • RTX 4090 환경에서 교사 모델 대비 3.28배 빠른 12.5 Hz의 추론 속도 달성
  • 단계별 감독과 다중 프레임 단서를 통해 교사 모델의 노이즈(고주파 그리퍼 변화 등)에 대한 강건성 확보
  • 다양한 교사 모델(π₀.₅-4B 등)에 적용 가능한 일반화된 증류 파이프라인 제공

수십억 개의 파라미터를 가진 시각-언어-행동 (Vision-Language-Action, VLA) 정책은 최근 로봇 조작 (robotic manipulation) 분야에서 인상적인 성능을 보여주었으나, 그 크기와 추론 비용은 실시간 폐루프 제어 (closed-loop control)를 구현하는 데 있어 여전히 주요한 장애물로 남아 있습니다. 본 논문에서는 시각-언어 모델 (Vision-Language Model, VLM)을 오프라인 시맨틱 감독관 (offline semantic supervisor)으로 사용하여 대규모 VLA 교사 모델을 경량 학생 정책으로 전이하는 증류 프레임워크인 \textbf{VLA-AD}를 소개합니다. VLA-AD는 저수준 행동 모방 (low-level action imitation)에만 의존하는 대신, 작업 단계 앵커 (task phase anchors) 및 다중 프레임 동작 방향 설명 (multi-frame operating-direction descriptions)을 포함한 고수준 시맨틱 가이드 (high-level semantic guidance)를 통해 교사가 제공하는 7-DoF 행동 목표를 보강합니다. 이러한 보조 신호는 학습 중에만 사용됩니다. 테스트 시에는 VLA 교사나 VLM이 필요하지 않으며, 학생 정책이 독립적으로 실행됩니다. 우리는 세 가지 LIBERO 벤치마크 제품군에서 VLA-AD를 평가했습니다. OpenVLA-7B를 교사 모델로 사용했을 때, 우리 방식은 158M 파라미터의 학생 모델을 생성하여 모델 크기를 $44 imes$ 줄이면서도 평균 상대 격차를 단 $0.27%$로 유지하며 교사 모델과 대등한 성능을 보였습니다. 결과적으로 생성된 정책은 RTX 4090에서 12.5 Hz로 실행되어, OpenVLA-7B 대비 $3.28 imes$ 빠른 추론 속도를 달성했습니다. 또한 동일한 시맨틱 증류 파이프라인이 다른 $\pi_{0.5}$-4B 교사 모델에도 일반화됨을 보여주었으며, 이 경우 학생 모델은 두 가지 제품군에서 교사 모델을 능가하고 \texttt{libero_goal}에서는 $0.53%$ 이내의 격차를 유지했습니다. 추가 분석에 따르면 단계별 감독 (phase-level supervision)과 다중 프레임 방향 단서 (multi-frame directional cues)는 학생 모델이 잘못된 고주파 그리퍼 변화와 같은 노이즈가 섞인 교사의 행동에 덜 민감하게 만듭니다. 종합적으로, VLA-AD는 VLM으로부터의 오프라인 시맨틱 가이드가 VLA 정책 증류의 효율성, 강건성 및 배포 가능성을 실질적으로 향상시킬 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0