TempoVLA: 속도 조절이 가능한 시각-언어-행동 (Vision-Language-Action) 정책 학습
요약
TempoVLA는 로봇 조작 시 실행 속도를 유연하게 조절할 수 있는 새로운 시각-언어-행동(VLA) 모델입니다. 데이터 증강 기술인 VSTA와 조건화 메커니즘을 결합하여, 고정된 속도에서 벗어나 작업 단계에 따른 동적 속도 제어를 가능하게 합니다.
핵심 포인트
- 기존 VLA 모델의 고정된 실행 속도 한계 극복
- VSTA 기술을 통한 가변 속도 궤적 데이터 증강
- 명시적 조건화를 통한 모델의 실행 속도 제어 구현
- 시뮬레이션 및 실제 환경에서 양방향 속도 제어 입증
- 동적 속도 제어를 통한 로봇 작업의 효율성 및 정밀도 향상
로봇 조작 (Robot manipulation)은 빠른 실행이 필요한 저위험 이동 단계 (transit phases)와 느리고 정밀한 움직임이 요구되는 고위험 접촉 단계 (contact stages) 사이를 교차하며 진행됩니다. 그러나 기존의 시각-언어-행동 (Vision-Language-Action, VLA) 모델들은 학습 시 보여준 시연 (demonstrations)으로부터 단 하나의 고정된 속도만을 물려받습니다. 모델 압축 (model compression), KV-캐시 재사용 (KV-cache reuse), 또는 강화학습 (reinforcement learning)을 통해 VLA를 가속화하려는 이전의 노력들은 정책을 하나의 고정된 속도에서 다른 고정된 속도로 이동시킬 뿐이며, 감속 (deceleration)에 대해서는 거의 탐구되지 않은 상태로 남아 있습니다. 우리는 예측된 각 행동 (action)의 크기가 이미 로봇이 얼마나 빨리 움직이는지를 결정한다는 점을 관찰하였으며, 이는 제어 가능한 실행 속도로 가는 직접적인 경로를 열어줍니다. 우리는 이러한 관찰을 바탕으로, 명시적인 조건 (explicit condition)에 의해 실행 속도가 제어되는 단일 VLA인 TempoVLA를 제안합니다. TempoVLA는 서로 결합된 두 가지 구성 요소를 결합합니다. (1) 동작의 의미론 (motion semantics)을 보존하면서 행동을 병합하거나 분할함으로써 시연의 시간을 임의의 목표 속도로 재조정하는 데이터 측면의 가변 속도 궤적 증강 (Variable-Speed Trajectory Augmentation, VSTA). (2) 속도를 정책에 입력하는 모델 측면의 조건화 메커니즘 (conditioning mechanism). 통계에 따르면 VSTA는 무시할 수 있는 수준의 동작 오차로 요청된 속도에 도달합니다. 시뮬레이션 및 실제 환경 작업에서의 실험을 통해 TempoVLA가 양방향 모두에서 유연한 속도 제어를 달성함을 입증하였으며, VSTA는 더 나은 데이터 활용을 통해 기본 $1 imes$ 성능을 추가적으로 향상시킵니다. 나아가, 대규모 멀티모달 모델 (large multimodal model)과 협력함으로써 TempoVLA는 저위험 단계에서는 가속하고 고위험 단계에서는 감속하는 동적 속도 제어 (dynamic speed control)를 실현합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기