Qwen-RobotManip 기술 보고서: 정렬(Alignment)을 통한 로봇 조작 파운데이션 모델의 스케일 확장
요약
Qwen-RobotManip은 시각-언어-행동(VLA) 통합 정렬 프레임워크를 통해 로봇 조작 성능을 극대화한 파운데이션 모델입니다. 대규모 멀티 소스 데이터를 일관성 있게 학습하여 제로샷 지시 이행 및 교차 체화 전이 등 뛰어난 일반화 능력을 입증했습니다.
핵심 포인트
- Qwen-VL 기반의 시각-언어-행동(VLA) 통합 정렬 프레임워크 도입
- 인간-로봇 합성 파이프라인을 통한 38,100시간의 대규모 데이터 구축
- OOD 설정 및 RoboChallenge 등 주요 벤치마크에서 SOTA 달성
- 실제 로봇 플랫폼(Franka, UR 등)에서의 성공적인 검증
언어 및 멀티모달리티(Multimodality) 분야의 파운데이션 모델(Foundation models)은 이질적인 데이터를 통일된 공식 아래 정렬(Alignment)하고 대규모로 학습함으로써 강력한 일반화(Generalization) 성능을 달성합니다. 본 보고서에서는 이러한 스케일링 레시피(Scaling recipe)가 로봇 조작(Robotic manipulation)에도 적용되어 진정한 일반화를 달성할 수 있는지 조사합니다. 이는 텍스트와 달리 조작 데이터가 본질적으로 이질적이고, 수집 비용이 높으며, 다양성이 부족하여 정렬과 스케일 확장을 동시에 달성하기 어렵기 때문에 도전적인 과제입니다. 우리는 Qwen-VL을 기반으로 구축된 일반화 가능한 시각-언어-행동(Vision-Language-Action) 파운데이션 모델인 Qwen-RobotManip을 선보입니다. Qwen-RobotManip은 조작의 표현(Representation), 동작(Motion), 행동(Behavioral) 차원에 걸친 통합 정렬 프레임워크를 도입하여, 대규모 멀티 소스 학습이 충돌하는 대신 일관성을 유지하도록 합니다. 이러한 정렬 능력은 결과적으로 Qwen-RobotManip이 이전의 학습 체계로는 유지할 수 없었던 규모의 조작 데이터를 흡수할 수 있게 합니다. 인간-로봇 합성 파이프라인(Human-to-robot synthesis pipeline)은 15개의 플랫폼에 걸쳐 1인칭 시점(Egocentric)의 손 시연을 로봇 궤적(Trajectories)으로 변환하며, 엄격한 큐레이션 파이프라인은 이질적인 데이터셋을 조화시킵니다. 독점적인 데이터 수집 없이 오픈 소스 데이터셋과 인간의 비디오만을 사용하여, Qwen-RobotManip은 약 38,100시간의 사전 학습 코퍼스(Pretraining corpus)를 구축하고 제로샷 지시 이행(Zero-shot instruction following), 섭동(Perturbations)에 대한 강건성, 반응형 오류 복구(Reactive error recovery), 그리고 교차 체화 전이(Cross-embodiment transfer)를 포함한 창발적 일반화 능력을 보여줍니다. 우리는 표준 벤치마크가 사전 학습의 품질을 포착하는 데 실패한다는 것을 발견하고, 대신 RoboCasa365, LIBERO-Plus, EBench, RoboTwin-Clean2Rand, RoboTwin-IF, RoboTwin-XE를 포함한 분포 외(OOD, Out-of-Distribution) 설정을 채택했습니다. Qwen-RobotManip은 모든 OOD 설정에서 $π$0.5를 포함한 이전의 최첨단(State-of-the-art) 모델들을 실질적으로 능가하며, RoboChallenge에서 20%의 상대적 개선을 보이며 1위를 차지하였고, AgileX ALOHA, Franka, UR, ARX를 포함한 실제 로봇 플랫폼에서 검증되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기