arXiv논문2026. 06. 24. 11:14

InSight: 조종 가능한 VLA를 통한 자기 주도적 기술 습득

요약

InSight는 VLA 모델이 원시 행동(primitive-action) 수준에서 조종 가능하도록 하여 자율적인 기술 습득을 지원하는 프레임워크입니다. VLM을 활용해 시연을 세분화하고, 누락된 기술을 스스로 학습하는 데이터 플라이휠 구조를 통해 인간의 추가 시연 없이도 새로운 과제를 수행합니다.

핵심 포인트

VLA 모델의 원시 행동 수준 조종 가능성 확보
VLM 기반의 자동화된 기술 세분화 파이프라인 제공
누락된 기술을 자율적으로 학습하는 데이터 플라이휠 구축
인간의 시연 없이도 긴 지평(long-horizon) 과제 수행 가능

시각-언어-행동 (Vision-language-action, VLA) 모델은 시연(demonstrations)으로부터 조작 기술을 학습할 수 있지만, 그 능력은 학습 데이터에 포함된 기술에 의해 제한됩니다. 우리는 VLA를 원시 행동 (primitive-action) 수준(예: "그릇으로 그리퍼 이동", "위로 들어 올리기", "병 붓기")에서 조종 가능하게 만듦으로써 자율적인 기술 습득을 가능하게 하는 프레임워크인 InSight를 제시합니다. InSight는 두 가지 주요 단계로 구성됩니다: (1) VLM 계획 분해(plan decomposition) 및 말단 장치 포즈(end-effector poses)를 통해 시연을 레이블이 지정된 원시 기술(primitives)로 분할하여 VLA의 원시 기술 조종 가능성을 가능하게 하는 자동화된 세분화 파이프라인, (2) 새로운 과제를 완수하는 데 필요한 누락된 원시 기술을 식별하고, VLM이 제안한 저수준 제어(low-level control)를 통해 누락된 원시 기술의 시연을 자율적으로 시도하며, 성공적인 시연을 자동으로 레이블링, 저장 및 VLA 학습 세트에 통합하는 VLM 가이드 데이터 플라이휠(data flywheel)입니다. 우리는 블록 뒤집기, 서랍 닫기, 쓸기, 비틀기, 붓기 등 대상 기술에 대한 인간의 시연 없이 시뮬레이션 및 실제 환경의 조작 과제 전반에 걸쳐 InSight를 평가합니다. 일단 학습되면, 이러한 원시 기술들은 추가적인 인간의 시연 없이도 새롭고 긴 지평(long-horizon)의 과제를 실행하기 위해 조합될 수 있습니다. 우리의 연구 결과는 원시 기술의 조종 가능성이 VLA 정책의 지속적인 기술 습득을 위한 실질적인 토대를 제공함을 입증합니다. 프로젝트 웹사이트: https://insight-vla.github.io.

AI 자동 생성 콘텐츠

원문 바로가기

InSight: 조종 가능한 VLA를 통한 자기 주도적 기술 습득

요약

핵심 포인트

댓글