Qwen-VLA: 작업, 환경 및 로봇 형태(Embodiment)를 아우르는 통합 시각-언어-행동 모델링
요약
Qwen-VLA는 로봇의 조작, 내비게이션, 궤적 생성을 단일 모델로 통합한 체화된 파운데이션 모델입니다. DiT 기반 행동 디코더를 통해 다양한 로봇 형태와 환경에서도 높은 일반화 성능을 보여줍니다.
핵심 포인트
- 시각-언어-행동(VLA)을 통합한 단일 파운데이션 모델 제시
- DiT 기반 행동 디코더를 통한 연속적인 행동 및 궤적 생성
- 형태 인식 프롬프트로 다양한 로봇 플랫폼 지원 가능
- 조작, 내비게이션 등 다중 작업에서 높은 OOD 일반화 성능 입증
체화된 지능(Embodied intelligence)은 흔히 조작(manipulation)이나 내비게이션(navigation)과 같은 개별 작업을 위한 특화된 모델을 통해 연구되며, 이는 파편화된 능력과 작업, 환경 및 로봇 형태(robot embodiments) 전반에 걸친 제한된 일반화(generalization)로 이어집니다. 본 연구에서는 이질적인 체화된 의사결정 문제들이 단일 시각-언어-행동(vision-language-action) 모델 내에서 통합될 수 있는지 연구합니다. 우리는 Qwen의 시각-언어 모델링 스택을 인지, 이해, 추론에서 DiT 기반 행동 디코더(action decoder)를 통한 연속적인 행동 및 궤적 생성(trajectory generation)으로 확장하는 통합 체화된 파운데이션 모델(embodied foundation model)인 Qwen-VLA를 제시합니다. Qwen-VLA는 로봇 조작 궤적, 인간 1인칭 시점(egocentric) 시연, 합성 시뮬레이션 데이터, 시각-언어 내비게이션 데이터, 궤적 중심 감독(trajectory-centric supervision), 그리고 보조 시각-언어 데이터를 포함한 다양한 데이터 소스에 대해 대규모 공동 사전 학습(joint pretraining) 레시피로 학습되었습니다. 여러 로봇 플랫폼을 지원하기 위해, 우리는 로봇별 텍스트 설명이 현재의 형태(embodiment)와 제어 관례(control convention)를 지정하는 형태 인식 프롬프트 조건화(embodiment-aware prompt conditioning)를 도입합니다. 나아가 우리는 조작, 내비게이션 및 궤적 예측을 통합된 행동 및 궤적 예측 프레임워크로 구성하여, 로봇의 형태(morphologies), 작업군(task families) 및 환경 전반에 걸쳐 전이 가능한 시각적 접지(visual grounding), 공간 추론(spatial reasoning) 및 연속적인 행동 생성을 가능하게 합니다. 조작, 내비게이션 및 궤적 중심 벤치마크에서의 실험은 장면 배치, 배경, 조명, 객체 구성 및 로봇 형태의 변화 하에서도 일관된 다중 작업 성능과 분포 외(out-of-distribution) 일반화 성능을 보여줍니다. Qwen-VLA-Instruct는 LIBERO에서 97.9%, Simpler-WidowX에서 73.7%, RoboTwin-Easy/Hard에서 86.1%/87.2%, R2R에서 69.0% OSR, RxR에서 59.6% SR, 실제 ALOHA 실험에서 평균 76.9%의 OOD 성공률을 달성하였으며, DOMINO 동적 조작(dynamic manipulation)에서 26.6%의 제로샷(zero-shot) 성공률을 기록했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기