FurnitureVLA: Vision-Language-Action 모델을 이용한 장기 시계열 양팔 가구 조립 학습

현재 로봇 가구 조립에 관한 연구는 대부분 장난감 규모의 설정이나 단일 팔 조작에 집중되어 있습니다. 우리는 Vision-Language-Action (VLA) 모델을 사용하여 실제 규모의 양팔 가구 조립을 체계적으로 연구한 첫 번째 사례인 FurnitureVLA를 소개합니다. 우리는 이 과업을 공식화하고, 전문가 데이터 생성 및 평가를 위한 확장 가능한 시뮬레이션 파이프라인을 개발하며, 고품질의 실제 세계 데모를 수집하기 위해 단일 작업자가 양팔을 제어할 수 있는 VR 원격 조작 (teleoperation) 시스템을 구축했습니다. 최대 7개의 하위 작업(subtasks)과 1550개의 제어 단계로 구성된 극단적인 장기 시계열 (long-horizon) 조립 문제를 해결하기 위해, 우리는 의미론적으로 근거가 있는 하위 작업들로 미세 조정(finetuning)되어 행동(action)과 연속적인 진행 신호(progress signal)를 공동으로 예측하는 진행 강화 VLA (progress-enhanced VLA)를 제안합니다. 이는 자동적인 하위 작업 전환을 가능하게 하고 추론 과정에서의 복합 오차 (compounding errors)를 줄여줍니다. 나아가 우리는 실제 규모의 조립 정밀도에 결정적인 영향을 미치는 인지 및 제어 설계 요인들을 연구합니다. FurnitureVLA는 세 가지 가구 유형에 대해 베이스라인 대비 평균 시뮬레이션 성공률을 48%에서 80%로 향상시켰으며, 우리의 설계 요인 연구를 통해 추가로 21%의 이득을 얻었습니다. 우리는 실제 Kinova Gen3 플랫폼에서 검증을 수행하였으며, 가장 어려운 작업에서도 단 16%의 성능 저하만을 보였습니다.

Insights

FurnitureVLA: Vision-Language-Action 모델을 이용한 장기 시계열 양팔 가구 조립 학습

요약

핵심 포인트

댓글

VS Code에서 자동으로 열리는 Copilot Chat을 중지하는 방법

개인 참조 정보 정리: Hermes Skills가 보안 모범 사례를 유지하는 방법

에이전트 액세스가 이제 설정 항목이 되었습니다

「Everything as Code」의 종착점에 AI가 왔다——고 생각했더니, 그것은 시작이었다

개인 참조 정보 정리: Hermes Skills가 보안 모범 사례를 유지하는 방법

에이전트 액세스가 이제 설정 항목이 되었습니다

「Everything as Code」의 종착점에 AI가 왔다——고 생각했더니, 그것은 시작이었다