인간 원격 조작 데이터를 활용한 양팔 로봇의 로프 조작을 위한 시뮬레이션 기반 정책 학습
요약
본 연구는 로프와 같은 변형 가능한 선형 객체(DLO)를 조작하기 위해 인간의 원격 조작 데이터를 활용한 시뮬레이션 기반 정책 학습을 다룹니다. 시각 기반 정책과 3D 입자 상태 기반 정책을 비교한 결과, 상태 기반 정책이 새로운 로프 구성에 대해 훨씬 더 높은 일반화 성능과 데이터 효율성을 보임을 입증했습니다.
핵심 포인트
- DLO 조작의 어려움은 무한한 구성 공간과 자기 폐쇄 문제에서 기인함
- 시각 기반 정책보다 물리적으로 일관된 3D 입자 상태 기반 정책이 더 높은 일반화 성능을 보임
- 상태 기반 정책은 초기 동작 예측 시 시각 기반 정책 대비 L1 오차를 30.8% 감소시킴
- 관측 공간의 선택이 정책 아키텍처나 데이터 규모보다 일반화 성능에 결정적인 영향을 미침
로프나 케이블과 같은 변형 가능한 선형 객체(Deformable Linear Objects, DLOs)는 가정 및 산업 분야 모두에서 널리 접하게 되지만, 무한 차원의 구성 공간(configuration space)과 빈번한 자기 폐쇄(self-occlusion) 문제로 인해 조작하기가 여전히 어렵습니다. 원격 조작(teleoperation)을 통한 모방 학습(Imitation learning)은 양팔 로봇의 DLO 조작을 위한 실질적인 경로를 제공하지만, 그 확장성은 인간의 노력에 의해 제한되므로 작은 데이터셋으로부터 일반화(generalization)를 달성하기 위해서는 관측 공간(observation space)의 선택이 매우 중요합니다.
본 연구에서는 매듭 풀기(knot-untangling) 작업에 대한 1인칭 시점(egocentric) 시각 정책(visual policies)의 일반화 부족이 정책 아키텍처(policy architecture)나 데이터 규모가 아닌 관측 공간 자체에서 기인하는지 조사합니다. 우리는 동일한 양팔 원격 조작 데이터로 학습된 두 가지 Action Chunking with Transformers (ACT) 정책을 비교합니다. 하나는 손목 장착 카메라의 두 가지 1인칭 RGB 스트림을 조건으로 하는 시각 기반 정책(vision-based policy)이며, 다른 하나는 다중 뷰 융합(multi-view fusion)을 통해 초기 관측값에서 추출되고 입자 기반의 eXtended Position-Based Dynamics (XPBD) 시뮬레이션에서 진화하는 DLO의 3D 입자 상태(3D particle state)를 조건으로 하는 상태 기반 정책(state-based policy)입니다.
학습에 사용되지 않은 새로운 로프 구성에 대해 오픈 루프(open-loop) 방식으로 평가한 결과, 상태 기반 정책은 초기 잡기 및 당기기(grasp-and-pull) 동작을 예측할 때 L1 오차를 30.8% 감소시키며 시각 기반 정책보다 우수한 성능을 보였습니다. 이는 픽셀(pixels)과 물리적으로 일관된 상태(physics-consistent state) 사이의 관측 가능성 격차(observability gap)를 정량화하며, 제한된 인간 시연으로부터 DLO 조작 작업을 위한 보다 데이터 효율적인 로봇 학습 방향을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기