Hand-in-the-Loop: 원활한 개입 교정을 통한 숙련된 VLA 성능 향상
요약
Vision-Language-Action (VLA) 모델은 복잡하고 장기적인 환경에서 오류가 누적되기 쉬워 숙련된 조작에 어려움을 겪습니다. 대화형 모방 학습(IIL)을 통해 인간의 개입 데이터를 활용하여 정책 개선이 가능하지만, 고자유도 로봇 손에 적용할 경우 개입 시점의 원격 조작과 정책 실행 간 명령 불일치 문제가 발생합니다.
핵심 포인트
- VLA 모델은 장기적인 숙련된 조작 환경에서 오류가 누적되기 쉽다.
- 대화형 모방 학습(IIL)은 인간의 개입 데이터를 활용하여 VLA 정책을 개선하는 방법이다.
- 고자유도 로봇 손에 IIL을 적용할 때, 원격 조작과 정책 실행 간 명령 불일치 문제가 주요 도전 과제이다.
Vision-Language-Action (VLA) 모델은 고차원 액션 공간 (action spaces)과 접촉이 빈번한 역학 (contact-rich dynamics)이 긴 시간 지평 (long horizons) 동안 작은 정책 편차를 증폭시키는 숙련된 조작 (dexterous manipulation) 환경에서 복합적인 오류 (compounding errors)가 발생하기 쉽습니다. 대화형 모방 학습 (Interactive Imitation Learning, IIL)은 인간의 개입 (takeover) 데이터를 통해 정책을 개선할 수 있지만, 이를 고자유도 (high-degree-of-freedom, DoF) 로봇 손에 적용하는 것은 여전히 도전적인 과제입니다. 이는 개입 순간의 인간 원격 조작 (teleoperation)과 정책 실행 (policy execution) 사이의 명령 불일치로 인해 로봇 손의 구성이 급격하게 변하는
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기