본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 25. 11:41

교차 임바디먼트(Cross-embodiment) 로봇 조작을 위한 행동 사전 학습 (Action Priors) 학습

요약

VLA 모델의 행동 모듈이 물리적 움직임을 처음부터 학습해야 하는 한계를 극복하기 위해, 움직임 사전 지식(motion priors)을 활용한 2단계 학습 프레임워크를 제안합니다. 1단계에서 행동 궤적을 통해 시간적 움직임 구조를 먼저 학습한 후, 이를 VLA 학습으로 전이하여 수렴 속도와 성공률을 높였습니다.

핵심 포인트

  • 행동 모듈의 사전 학습을 통해 시간적 행동 역학 학습 효율 개선
  • 플로우 매칭 기반의 인코더-디코더를 통한 움직임 구조 학습
  • 디코더 재사용 및 잠재 증류를 통한 VLA 학습으로의 지식 전이
  • 이력 압축기를 통한 효율적인 이력 인지 모델링 구현
  • 교차 임바디먼트 환경에서 더 빠른 수렴과 높은 성공률 달성

대부분의 시각-언어-행동 (Vision-Language-Action, VLA) 모델은 행동 모듈을 부착하고 전체 정책 (policy)을 공동으로 최적화함으로써 시각-언어 모델 (Vision-Language Model, VLM) 백본을 기반으로 구축됩니다. 이러한 설계는 VLM으로부터 강력한 시각적 및 언어적 사전 지식 (priors)을 상속받지만, 행동 모듈은 물리적 움직임을 거의 처음부터 학습해야 하는 상태로 남겨둡니다. 그 결과, 정책에는 명시적인 움직임 사전 지식 (motion prior)이 부족하며, 이로 인해 초기 최적화 단계에서 시간적 행동 역학 (temporal action dynamics)과 교차 모달 정렬 (cross-modal alignment)을 동시에 발견해야 하는 과제가 발생하며, 이는 교차 임바디먼트 (cross-embodiment) 설정에서 더욱 증폭됩니다.

본 연구에서는 교차 모달 VLA 정렬 이전에 움직임 사전 지식 (motion priors)을 사용하여 행동 모듈을 사전 학습할 것을 제안합니다. 구체적으로, 우리는 VLA 학습이 시작되기 전에 행동 모듈에 교차 임바디먼트 시간적 움직임 구조 (cross-embodiment temporal motion structure)를 갖추어 주는 2단계 학습 프레임워크를 도입합니다. 1단계 (Stage 1)에서는 경량화된 플로우 매칭 (flow-matching) 기반의 인코더-디코더 행동 모듈이 시각적 또는 언어적 토큰을 처리하지 않고, 조건이 없는 행동 궤적 (unconditioned action trajectories)으로부터만 시간적 움직임 구조를 효율적으로 학습합니다. 2단계 (Stage 2)에서는 학습된 사전 지식이 디코더 재사용 (decoder reuse) 및 초기 단계 잠재 증류 (early-stage latent distillation)를 통해 VLA 학습으로 전이되며, 시각-언어 특징을 행동 임베딩 공간 (action embedding space)과 정렬하는 동시에 엔드 투 엔드 (end-to-end) 정책 미세 조정을 허용합니다. 또한, 학습된 인코더는 컴팩트한 이력 압축기 (history compressor) 역할을 하여, 무시할 수 있는 비용으로 이력 인지 모델링 (history-aware modeling)을 위해 상태-행동 이력을 단일 시간적 컨텍스트 토큰 (temporal context token)으로 요약합니다.

시뮬레이션 및 실제 환경 플랫폼 모두에서 13가지의 다양한 교차 임바디먼트 태스크를 통한 광범위한 실험은 우리 접근 방식의 효과를 입증합니다. 행동 사전 지식 (action priors)이 없는 VLA 학습과 비교했을 때, 우리 모델은 더 빠른 수렴, 더 높은 성공률, 그리고 데이터가 부족한 실제 환경 태스크에서 실질적으로 더 강력한 성능을 달성합니다. 또한, 1단계에서 행동 데이터를 확장하면 다운스트림 VLA 성능을 직접적으로 향상시키는 더 일반화 가능한 행동 사전 지식 (action prior)을 얻을 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0