FurnitureVLA: Vision-Language-Action 모델을 이용한 장기 시계열 양팔 가구 조립 학습
요약
FurnitureVLA는 VLA 모델을 활용하여 실제 규모의 양팔 가구 조립을 수행하는 연구입니다. 시뮬레이션 파이프라인과 VR 원격 조작 시스템을 통해 데이터를 수집하며, 진행 강화 VLA를 통해 장기 시계열 과업의 성공률을 크게 높였습니다.
핵심 포인트
- VLA 모델 기반의 양팔 로봇 가구 조립 연구 최초 사례
- VR 원격 조작 시스템을 통한 고품질 실제 데이터 수집
- 진행 강화 VLA를 통한 하위 작업 자동 전환 및 오차 감소
- 시뮬레이션 성공률을 48%에서 80%로 향상
- 실제 Kinova Gen3 플랫폼에서의 성능 검증 완료
현재 로봇 가구 조립에 관한 연구는 대부분 장난감 규모의 설정이나 단일 팔 조작에 집중되어 있습니다. 우리는 Vision-Language-Action (VLA) 모델을 사용하여 실제 규모의 양팔 가구 조립을 체계적으로 연구한 첫 번째 사례인 FurnitureVLA를 소개합니다. 우리는 이 과업을 공식화하고, 전문가 데이터 생성 및 평가를 위한 확장 가능한 시뮬레이션 파이프라인을 개발하며, 고품질의 실제 세계 데모를 수집하기 위해 단일 작업자가 양팔을 제어할 수 있는 VR 원격 조작 (teleoperation) 시스템을 구축했습니다. 최대 7개의 하위 작업(subtasks)과 1550개의 제어 단계로 구성된 극단적인 장기 시계열 (long-horizon) 조립 문제를 해결하기 위해, 우리는 의미론적으로 근거가 있는 하위 작업들로 미세 조정(finetuning)되어 행동(action)과 연속적인 진행 신호(progress signal)를 공동으로 예측하는 진행 강화 VLA (progress-enhanced VLA)를 제안합니다. 이는 자동적인 하위 작업 전환을 가능하게 하고 추론 과정에서의 복합 오차 (compounding errors)를 줄여줍니다. 나아가 우리는 실제 규모의 조립 정밀도에 결정적인 영향을 미치는 인지 및 제어 설계 요인들을 연구합니다. FurnitureVLA는 세 가지 가구 유형에 대해 베이스라인 대비 평균 시뮬레이션 성공률을 48%에서 80%로 향상시켰으며, 우리의 설계 요인 연구를 통해 추가로 21%의 이득을 얻었습니다. 우리는 실제 Kinova Gen3 플랫폼에서 검증을 수행하였으며, 가장 어려운 작업에서도 단 16%의 성능 저하만을 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기