FineVLA: 조종 가능한 시각-언어-행동 (Vision-Language-Action) 정책을 위한 미세 조정 지침 정렬
요약
FineVLA는 로봇의 행동을 세밀하게 제어할 수 있도록 미세 조정된 시각-언어-행동(VLA) 프레임워크입니다. 기존의 목표 중심 지침을 넘어 실행 방식에 대한 구체적인 지침을 학습시켜 로봇의 조종 가능성을 높였습니다.
핵심 포인트
- FineVLA 프레임워크를 통한 행동 정렬 미세 조정 기술 제안
- 미세 조정 지침과 가공되지 않은 지침의 최적 혼합 비율 발견
- 포즈, 색상, 접근 방향 등 세부 제어 능력 대폭 향상
- 실제 환경 양팔 조작 성공률을 49.9%에서 62.7%로 개선
시각-언어-행동 (Vision-Language-Action, VLA) 모델은 로봇 작업을 완료하는 것뿐만 아니라, 해당 작업을 어떻게 수행해야 하는지에 대한 인간의 지침을 따를 수 있을 것이라는 기대가 점점 높아지고 있습니다. 그러나 기존의 로봇 데이터셋은 대개 궤적 (trajectories)을 거친 목표 수준 (goal-level)의 언어와 쌍으로 구성하여, 활성 팔 (active arm), 접근 방향 (approach direction), 접촉 영역 (contact region)과 같이 실행에 결정적인 세부 사항을 명시하지 않은 채 남겨둡니다. 이는 조종 가능한 정책 학습 (steerable policy learning)과 로봇 비디오 이해를 제한합니다. 우리는 행동에 정렬된 미세 조정 VLA 감독 (action-aligned fine-grained VLA supervision)을 위한 개방형 프레임워크인 FineVLA를 소개합니다. 이 프레임워크는 다음을 포함합니다: (1) 10개의 오픈 소스 로봇 데이터셋에서 85,000개의 작업에 걸친 972,247개의 궤적을 통합하고, 인간이 검증한 47,159개의 미세 조정 궤적으로 구성된 FineVLA-Data 데이터셋을 구축하는 데이터 구축 도구; (2) 500개의 비디오, 10,816개의 원자적 사실 (atomic facts), 1,030개의 VQA 질문으로 구성된 홀드아웃 벤치마크 (held-out benchmark); (3) 확장 가능한 미세 조정 주석 (fine-grained annotation)을 위한 로봇 공학 특화 VLM 주석가 (annotator); (4) 미세 조정 지침과 가공되지 않은 목표 수준 지침을 제어된 혼합 비율로 학습시킨 조종 가능한 VLA 정책. 우리의 실험은 세 가지 발견을 도출했습니다. 첫째, 미세 조정 감독은 목표 수준의 성공률을 희생하지 않습니다: FG-only (미세 조정 전용) 방식은 다양한 설정에서 Raw-only (가공되지 않은 데이터 전용) 방식보다 성공률이 +1.4에서 +8.1 포인트 향상되었습니다. 둘째, 미세 조정 지침과 가공되지 않은 지침은 상호 보완적이며, FG:Raw 비율이 1:2에서 1:1 사이에서 정점을 찍는 일관된 역 U자형 (inverted-U) 추세를 따릅니다. 최적의 혼합 설정은 RoboTwin 시뮬레이션에서 86.8%/82.5%에 도달하고, 실제 환경의 양팔 조작 (dual-arm manipulation)에서 62.7/100을 기록했습니다 (Raw-only의 49.9 대비). 셋째, 미세 조정 감독은 조종 가능한 제어 (steerable control)를 개선합니다: 가장 큰 실제 환경 이득은 포즈 (+23), 색상 (+18), 접근 방향 (+18)에서 나타났으며, 이는 목표 수준의 지침이 가이드를 제공하지 못하는 요소들입니다. 종합적으로, 미세 조정 언어는 목표 수준의 지침을 보강해야 합니다: 즉, 무엇을 달성할 것인지와 함께 어떻게 실행할 것인지를 명시해야 합니다. 프로젝트 페이지: https://finevla.xlang.ai/
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기