arXiv논문2026. 05. 19. 17:27

ManiSoft: 소프트 연속체 로봇을 위한 시각-언어 조작을 향하여

요약

ManiSoft는 기존 강체 로봇 팔 연구의 한계를 넘어, 변형 가능한 소프트 로봇 팔을 위한 시각-언어 조작(vision-language manipulation) 벤치마크를 제안합니다. 현실적인 소프트 바디 역학을 지원하는 시뮬레이터와 자동화된 데이터 생성 파이프라인을 통해 다양한 조작 태스크를 수행할 수 있도록 설계되었습니다. 실험 결과, 현재의 정책 모델들은 무작위화된 환경에서 고유 수용 상태 추정 및 변형 가능성 활용에 어려움을 겪는 것으로 나타났습니다.

핵심 포인트

소프트 로봇 팔의 변형 가능성과 복잡한 상호작용을 지원하는 맞춤형 시뮬레이터 ManiSoft 소개
고수준 플래너와 저수준 강화학습을 결합하여 6,300개의 전문가 궤적을 생성하는 자동화 파이프라인 구축
말단 장치 조정부터 장애물 회피까지 네 가지 핵심 변형 제어 태스크 정의
무작위 환경에서의 성능 저하 원인으로 부정확한 시각적 고유 수용 상태 추정과 변형 활용 능력 부족을 지적

대부분의 기존 시각-언어 조작 (vision-language manipulation) 연구는 강체 로봇 팔 (rigid robotic arms)을 대상으로 하며, 이들의 고정된 형태 (morphology)는 복잡하거나 제한된 공간에서의 적응성을 제한합니다. 소프트 로봇 팔 (soft robotic arms)은 변형 가능성 (deformability) 덕분에 매력적인 대안을 제공하지만, 신뢰할 수 없는 고유 수용 감각 (proprioception) 및 분산된 저수준 구동 (distributed low-level actuation)과 같은 문제에 직면해 있습니다. 이러한 과제들을 조사하기 위해, 우리는 소프트 팔을 이용한 시각-언어 조작을 위한 벤치마크인 ManiSoft를 소개합니다. ManiSoft는 탄성력 제약 (elastic force constraint)을 통해 현실적인 소프트 바디 역학 (soft-body dynamics)과 접촉이 풍부한 상호작용 (contact-rich interactions)을 결합한 맞춤형 시뮬레이터를 특징으로 합니다. 이를 바탕으로 ManiSoft는 기본적인 말단 장치 (end-effector) 조정부터 장애물 회피에 이르기까지, 변형 가능한 제어 (deformable control)의 서로 다른 측면을 강조하는 네 가지 태스크를 정의합니다. 정책 (policy) 학습 및 평가를 지원하기 위해, ManiSoft는 $6{,}300$개의 다양한 장면과 그에 상응하는 전문가 궤적 (expert trajectories)을 생성하는 자동화된 파이프라인을 포함합니다. 대규모로 고품질의 궤적을 생성하기 위해, 우리는 먼저 고수준 플래너 (high-level planner)를 사용하여 각 태스크를 일련의 웨이포인트 (waypoints) 시퀀스로 분해한 다음, 웨이포인트를 추적하기 위한 토크 명령 (torque commands)을 생성하는 저수준 강화학습 (reinforcement learning) 정책을 사용합니다. 세 가지 대표적인 정책 모델을 벤치마킹한 결과, 깨끗한 장면에서는 비교적 유망한 결과를 보였으나 무작위화 (randomization) 조건 하에서는 상당한 성능 저하를 보였습니다. 시각화 분석에 따르면, 실패의 주요 원인은 고유 수용 상태 (proprioceptive state)에 대한 부정확한 시각적 추정과 적응형 장애물 회피를 위한 변형 가능성 (deformability) 활용의 제한으로 나타났습니다. 우리는 ManiSoft가 시각-언어 조작 맥락에서 강체 팔과 소프트 팔 사이의 간극을 메우는 가치 있는 테스트베드 역할을 할 것으로 기대합니다. 코드와 데이터셋은 https://buaa-colalab.github.io/ManiSoft 에서 공개됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

ManiSoft: 소프트 연속체 로봇을 위한 시각-언어 조작을 향하여

요약

핵심 포인트

댓글