arXiv논문2026. 06. 01. 11:01

DeMaVLA: 일반화 가능한 변형 가능한 조작을 위한 시각-언어-행동 (VLA) 파운데이션 모델

요약

DeMaVLA는 변형 가능한 물체 조작을 위한 새로운 VLA 파운데이션 모델입니다. VLM 백본과 액션 전문가를 결합하고 플로우 매칭을 사용하여 효율적인 연속 액션 생성을 구현하며, 실제 로봇 데이터를 통해 높은 일반화 성능을 입증했습니다.

핵심 포인트

VLM 백본과 액션 전문가를 결합한 계층별 정렬 구조 채택
플로우 매칭을 통한 효율적인 연속 액션 생성 공식화
레이어 가지치기(Pruning)를 통한 학습 및 추론 비용 절감
DAgger 파이프라인을 활용한 교정 궤적 기반 사후 학습
실제 환경의 변형 가능한 물체 조작에 대한 강력한 일반화 성능

실제 가정용 로봇은 다양한 물체, 작업 조건 및 가정 환경 전반에 걸쳐 재사용 가능한 조작 기술을 습득할 수 있는 시각-언어-행동 (Vision-Language-Action, VLA) 파운데이션 모델 (foundation models)을 필요로 합니다. 변형 가능한 물체 (Deformable-object) 접기는 대표적인 도전 과제로, 로봇이 다양한 카테고리, 기하학적 구조, 재질 및 장면에서 무작위 초기 상태의 의류 아이템을 다룰 것을 요구합니다. 그러나 기존의 VLA 시스템은 일반적으로 서로 다른 물체 카테고리에 대해 별도의 정책 (policies)을 학습하며, 단순하게 혼합된 멀티태스크 학습 (multi-task training)은 종종 작업 간섭 (task interference)과 성능 저하를 겪습니다. 카테고리별 접기 정책을 넘어설 수 있도록, 우리는 일반화 가능한 변형 가능한 조작 (Deformable Manipulation)을 위한 VLA 파운데이션 모델인 DeMaVLA를 소개합니다. DeMaVLA는 액션 전문가 (action expert)를 갖춘 VLM 백본 (backbone)을 채택하고, 플로우 매칭 (flow matching)을 사용하여 연속적인 액션 생성을 공식화합니다. 효율성을 높이기 위해, 액션 전문가는 VLM 백본과의 계층별 정렬 (layer-wise alignment)을 유지하면서 매 홀수 번째 트랜스포머 (transformer) 레이어를 가지치기 (pruning)하여 구축함으로써 학습 및 추론 비용을 줄입니다. DeMaVLA는 먼저 일반적인 조작 사전 지식 (manipulation priors)을 습득하기 위해 엄선된 약 5,000시간의 실제 양팔 로봇 시연 데이터 (real-world dual-arm demonstrations)로 사전 학습 (pre-trained)됩니다. 그 다음, 인간 참여형 데이터 집계 (human-in-the-loop Data Aggregation, DAgger) 파이프라인을 통해 여러 접기 작업에 걸쳐 직접 수집한 시연과 실제 로봇 실패로부터 얻은 교정 궤적 (corrective trajectories)을 통합한 혼합 접기 데이터로 사후 학습 (post-trained)됩니다. 실험 결과, DeMaVLA는 RoboTwin에서 경쟁력 있는 성능을 달성하였으며, 우리의 가정용 접기 벤치마크에서 강력한 실제 환경 결과를 보여주었습니다. 이러한 결과는 변형 가능한 물체 조작을 위한 범용 VLA 정책에 있어 확장 가능한 실제 데이터, 효율적인 액션 생성, 그리고 교정 학습 (corrective learning)의 가치를 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DeMaVLA: 일반화 가능한 변형 가능한 조작을 위한 시각-언어-행동 (VLA) 파운데이션 모델

요약

핵심 포인트

댓글