arXiv논문2026. 06. 10. 11:11

시각-행동 로봇 데이터의 재라벨링을 통한 작업 강건성 확보

요약

기존 로봇 데이터셋의 언어 및 행동 다양성 부족 문제를 해결하기 위해 VLM을 활용한 재라벨링 프레임워크인 TREAD를 제안합니다. 시각-언어 모델을 통해 데이터를 의미론적 하위 작업으로 분해하고 언어적 다양성을 증강하여 로봇의 작업 강건성을 높입니다.

핵심 포인트

VLM을 활용한 데이터 증강 프레임워크 TREAD 제안
시연 비디오를 의미론적 하위 작업으로 분해하여 계획 일반화 향상
텍스트 목표의 언어적 다양성 확대를 통한 정책 일반화 달성
추가 데이터 수집 없이 기존 데이터셋의 가치 극대화

로봇 학습을 위한 모델 스케일링 (scaling)의 최근 추세는 다양한 조작 작업 (manipulation tasks)을 수행하고 새로운 시나리오로 일반화할 수 있는 인상적인 정책 (policies)을 만들어냈습니다. 그러나 이러한 정책들은 기존 로봇 데이터셋의 언어적 및 행동 시퀀스 (action sequence) 다양성 부족으로 인해 지시 사항을 따르는 데 여전히 어려움을 겪고 있습니다. 본 논문은 추가적인 데이터 수집 없이 대규모 시각-언어 모델 (Vision-Language Models, VLMs)을 활용하여 기존 로봇 데이터셋을 증강하고, 이러한 모델들에 내재된 전이 가능한 지식을 활용하는 확장 가능한 프레임워크인 '시각-행동 로봇 데이터의 재라벨링을 통한 작업 강건성 확보 (Task Robustness via Re-Labelling Vision-Action Robot Data, TREAD)'를 소개합니다. 우리의 접근 방식은 사전 학습된 VLM을 세 가지 단계로 활용합니다: 원래의 지시 라벨과 초기 장면으로부터 의미론적 하위 작업 (semantic sub-tasks)을 생성하고, 이러한 하위 작업에 따라 시연 비디오 (demonstration videos)를 분할하며, 객체 속성을 포함하는 다양한 지시 사항을 생성하여 긴 시연을 근거 있는 언어-행동 쌍 (language-action pairs)으로 효과적으로 분해합니다. 우리는 또한 텍스트 목표 (text goals)의 언어적으로 다양한 버전을 통해 데이터를 증강함으로써 강건성을 더욱 향상시킵니다. LIBERO에서의 평가 결과, 우리의 증강된 데이터셋으로 학습된 정책은 보지 못한 새로운 작업 및 목표에 대해 향상된 성능을 보여줍니다. 우리의 결과는 TREAD가 궤적 분해 (trajectory decomposition)를 통한 계획 일반화 (planning generalization)와 언어적 다양성 증가를 통한 언어 조건부 정책 일반화 (language-conditioned policy generalization)를 모두 향상시킨다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

시각-행동 로봇 데이터의 재라벨링을 통한 작업 강건성 확보

요약

핵심 포인트

댓글