InSight: 조종 가능한 VLA를 통한 자기 주도적 기술 습득
요약
InSight는 VLA 모델이 원시 행동(primitive-action) 수준에서 조종 가능하도록 하여 자율적인 기술 습득을 지원하는 프레임워크입니다. VLM을 활용해 시연을 세분화하고, 누락된 기술을 스스로 학습하는 데이터 플라이휠 구조를 통해 인간의 추가 시연 없이도 새로운 과제를 수행합니다.
핵심 포인트
- VLA 모델의 원시 행동 수준 조종 가능성 확보
- VLM 기반의 자동화된 기술 세분화 파이프라인 제공
- 누락된 기술을 자율적으로 학습하는 데이터 플라이휠 구축
- 인간의 시연 없이도 긴 지평(long-horizon) 과제 수행 가능
시각-언어-행동 (Vision-language-action, VLA) 모델은 시연(demonstrations)으로부터 조작 기술을 학습할 수 있지만, 그 능력은 학습 데이터에 포함된 기술에 의해 제한됩니다. 우리는 VLA를 원시 행동 (primitive-action) 수준(예: "그릇으로 그리퍼 이동", "위로 들어 올리기", "병 붓기")에서 조종 가능하게 만듦으로써 자율적인 기술 습득을 가능하게 하는 프레임워크인 InSight를 제시합니다. InSight는 두 가지 주요 단계로 구성됩니다: (1) VLM 계획 분해(plan decomposition) 및 말단 장치 포즈(end-effector poses)를 통해 시연을 레이블이 지정된 원시 기술(primitives)로 분할하여 VLA의 원시 기술 조종 가능성을 가능하게 하는 자동화된 세분화 파이프라인, (2) 새로운 과제를 완수하는 데 필요한 누락된 원시 기술을 식별하고, VLM이 제안한 저수준 제어(low-level control)를 통해 누락된 원시 기술의 시연을 자율적으로 시도하며, 성공적인 시연을 자동으로 레이블링, 저장 및 VLA 학습 세트에 통합하는 VLM 가이드 데이터 플라이휠(data flywheel)입니다. 우리는 블록 뒤집기, 서랍 닫기, 쓸기, 비틀기, 붓기 등 대상 기술에 대한 인간의 시연 없이 시뮬레이션 및 실제 환경의 조작 과제 전반에 걸쳐 InSight를 평가합니다. 일단 학습되면, 이러한 원시 기술들은 추가적인 인간의 시연 없이도 새롭고 긴 지평(long-horizon)의 과제를 실행하기 위해 조합될 수 있습니다. 우리의 연구 결과는 원시 기술의 조종 가능성이 VLA 정책의 지속적인 기술 습득을 위한 실질적인 토대를 제공함을 입증합니다. 프로젝트 웹사이트: https://insight-vla.github.io.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기