본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 10:45

CLASP: 작업 매개변수화 학습 (Task-Parameterized Learning)을 이용한 언어 주도 로봇 기술 선택 및 구성

요약

CLASP는 VLM과 작업 매개변수화 모방 학습을 결합하여 로봇의 자연어 명령 이해와 데이터 효율성을 동시에 해결하는 연구입니다. 미세 조정 없이도 VLM이 기술 스키마를 생성하고 명령을 해석하여 새로운 행동을 구성할 수 있습니다.

핵심 포인트

  • VLM과 TP-KMPs를 결합한 모듈형 아키텍처 제안
  • 2~5회의 적은 시연만으로도 효율적인 기술 습득 가능
  • 미세 조정 없이 자연어 명령을 통한 기술 선택 및 구성
  • 역량 격차 발생 시 능동 학습을 위한 추가 시연 요청
  • 7-DoF 매니퓰레이터 실험에서 최대 100% 성공률 달성

로봇이 데이터 효율성을 유지하면서 자연어 명령으로부터 작업을 이해하고 실행할 수 있도록 하는 것은 여전히 도전적인 과제로 남아 있습니다. 시각-언어-행동 (VLA) 및 시각-언어 모델 (VLMs)과 같은 파운데이션 모델 (Foundation models)은 직관적인 상호작용 채널을 제공하지만 방대한 데이터를 필요로 합니다. 반면, 작업 매개변수화 모방 학습 (task-parameterized imitation learning)은 데이터 효율성을 달성하지만 자연어 접지 (natural language grounding)가 부족합니다. 본 연구는 작업 매개변수화 커널화 운동 원형 (TP-KMPs)과 사전 학습된 VLMs를 결합한 모듈형 아키텍처를 통해 이 간극을 메웁니다. 학습 과정에서 기술은 2~5회의 운동 감각 시연 (kinesthetic demonstrations)을 통해 습득되며, VLM은 각 기술의 매개변수와 전제 조건을 설명하는 기술 스키마 (skill schemas)를 생성합니다. 실행 과정에서 VLM은 명령을 해석하여 기술을 선택하고, 매개변수 바인딩 (parameter bindings)에 대해 추론하며, 공분산 가중 구성 (covariance-weighted composition)을 통해 새로운 행동을 생성합니다. 적절한 기술이나 구성이 없는 경우, 시스템은 역량 격차 (capability gaps)를 식별하고 타겟팅된 시연을 요청하며, 이 모든 과정은 미세 조정 (fine-tuning) 없이 수행됩니다. 7-DoF 매니퓰레이터 (manipulator)를 통한 검증 결과, 기술 선택, 구성 및 능동 학습 (active learning)이 필요한 시나리오에서 73.3%~100%의 성공률을 보였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0