arXiv논문2026. 06. 15. 08:21

TacCoRL: 시뮬레이션을 통한 VLA에 촉각 피드백 통합

요약

TacCoRL은 시각-언어-행동(VLA) 모델에 촉각 피드백을 통합하여 로봇의 정밀한 조작 능력을 향상시키는 프레임워크입니다. 시뮬레이션과 실제 환경의 공동 학습을 통해 실패 직전의 상태에서도 촉각 데이터를 활용해 행동을 조절하도록 학습합니다.

핵심 포인트

VLA 모델에 촉각 피드백을 주입하여 접촉 중심 작업 성능 개선
시뮬레이션-실제 공동 학습(sim-real Co-training) 및 RL 활용
실패 직전 상태(near-failure states)에서의 촉각 반응 학습 최적화
실제 로봇으로의 직접 전이가 가능한 확장 가능한 프레임워크 제시
기존 베이스라인 대비 성공률 평균 72.5% 향상 달성

시각-언어-행동 (Vision-language-action, VLA) 모델은 로봇 조작을 위한 강력한 시각, 언어 및 행동 사전 지식 (priors)을 제공하지만, 시각적 관찰만으로는 접촉이 풍부한 (contact-rich) 작업에 필요한 국소적 접촉 상태를 놓치는 경우가 많습니다. 우리는 대규모 촉각 사전 학습 (tactile pretraining)이나 광범위한 실제 환경의 접촉 탐색 없이도, VLA 정책에 촉각 피드백을 주입하고 시뮬레이션-실제 공동 학습 (sim-real Co-training) 및 시뮬레이션 기반 강화학습 (Reinforcement Learning, RL)을 통해 이를 개선하는 확장 가능한 프레임워크인 TacCoRL을 제시합니다. 핵심 아이디어는 단순히 촉각을 입력으로 추가하는 것이 아니라, 데모(demonstrations)에서는 드물고 하드웨어에서 수집하기에는 위험한 '실패 직전 상태 (near-failure states)'에서 접촉 판독값이 행동 반응을 어떻게 조절해야 하는지를 학습하는 것입니다. 우리는 접촉 상호작용을 위한 폐루프 (closed-loop) 학습 환경으로 실제와 정렬된 시뮬레이터 (real-aligned simulator)를 사용합니다. 혼합된 시뮬레이션 및 실제 궤적 (trajectories)은 먼저 사전 학습된 정책 내에서 촉각 조건부 행동 (tactile-conditioned actions)을 웜스타트 (warm-start) 합니다. 그 후 검증 가능한 작업 보상 (task rewards)을 사용하는 강화학습 (RL)을 통해 시뮬레이션된 접촉 롤아웃 (rollouts)을 사용하여 정책을 최적화합니다. 이는 작업 완료로 이어지는 촉각 조건부 행동을 강화하는 동시에, 실제 궤적에 대한 지도 학습 목적 함수 (supervised objective)를 통해 정제된 정책이 배포 시의 시각, 촉각 및 행동 분포에 고정되도록 유지합니다. 결과적으로 생성된 정책은 특권적 시뮬레이션 상태 (privileged simulation state)나 온라인 실제 환경 강화학습 (online real-world RL) 없이 실제 로봇으로 직접 전이됩니다. 네 가지 양손 접촉 풍부 작업 (bimanual contact-rich tasks) 전반에 걸쳐, 최종 시각-촉각 정책은 베이스라인의 50.0%와 비교하여 평균 72.5%의 성공률을 달성했습니다. 결과 영상 및 자세한 내용은 https://tac-corl.github.io/ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TacCoRL: 시뮬레이션을 통한 VLA에 촉각 피드백 통합

요약

핵심 포인트

댓글