arXiv논문2026. 05. 27. 12:20

FineVLA: 조종 가능한 시각-언어-행동 (Vision-Language-Action) 정책을 위한 미세 조정 지침 정렬

요약

FineVLA는 로봇의 행동을 세밀하게 제어할 수 있도록 미세 조정된 시각-언어-행동(VLA) 프레임워크입니다. 기존의 목표 중심 지침을 넘어 실행 방식에 대한 구체적인 지침을 학습시켜 로봇의 조종 가능성을 높였습니다.

핵심 포인트

FineVLA 프레임워크를 통한 행동 정렬 미세 조정 기술 제안
미세 조정 지침과 가공되지 않은 지침의 최적 혼합 비율 발견
포즈, 색상, 접근 방향 등 세부 제어 능력 대폭 향상
실제 환경 양팔 조작 성공률을 49.9%에서 62.7%로 개선

시각-언어-행동 (Vision-Language-Action, VLA) 모델은 로봇 작업을 완료하는 것뿐만 아니라, 해당 작업을 어떻게 수행해야 하는지에 대한 인간의 지침을 따를 수 있을 것이라는 기대가 점점 높아지고 있습니다. 그러나 기존의 로봇 데이터셋은 대개 궤적 (trajectories)을 거친 목표 수준 (goal-level)의 언어와 쌍으로 구성하여, 활성 팔 (active arm), 접근 방향 (approach direction), 접촉 영역 (contact region)과 같이 실행에 결정적인 세부 사항을 명시하지 않은 채 남겨둡니다. 이는 조종 가능한 정책 학습 (steerable policy learning)과 로봇 비디오 이해를 제한합니다. 우리는 행동에 정렬된 미세 조정 VLA 감독 (action-aligned fine-grained VLA supervision)을 위한 개방형 프레임워크인 FineVLA를 소개합니다. 이 프레임워크는 다음을 포함합니다: (1) 10개의 오픈 소스 로봇 데이터셋에서 85,000개의 작업에 걸친 972,247개의 궤적을 통합하고, 인간이 검증한 47,159개의 미세 조정 궤적으로 구성된 FineVLA-Data 데이터셋을 구축하는 데이터 구축 도구; (2) 500개의 비디오, 10,816개의 원자적 사실 (atomic facts), 1,030개의 VQA 질문으로 구성된 홀드아웃 벤치마크 (held-out benchmark); (3) 확장 가능한 미세 조정 주석 (fine-grained annotation)을 위한 로봇 공학 특화 VLM 주석가 (annotator); (4) 미세 조정 지침과 가공되지 않은 목표 수준 지침을 제어된 혼합 비율로 학습시킨 조종 가능한 VLA 정책. 우리의 실험은 세 가지 발견을 도출했습니다. 첫째, 미세 조정 감독은 목표 수준의 성공률을 희생하지 않습니다: FG-only (미세 조정 전용) 방식은 다양한 설정에서 Raw-only (가공되지 않은 데이터 전용) 방식보다 성공률이 +1.4에서 +8.1 포인트 향상되었습니다. 둘째, 미세 조정 지침과 가공되지 않은 지침은 상호 보완적이며, FG:Raw 비율이 1:2에서 1:1 사이에서 정점을 찍는 일관된 역 U자형 (inverted-U) 추세를 따릅니다. 최적의 혼합 설정은 RoboTwin 시뮬레이션에서 86.8%/82.5%에 도달하고, 실제 환경의 양팔 조작 (dual-arm manipulation)에서 62.7/100을 기록했습니다 (Raw-only의 49.9 대비). 셋째, 미세 조정 감독은 조종 가능한 제어 (steerable control)를 개선합니다: 가장 큰 실제 환경 이득은 포즈 (+23), 색상 (+18), 접근 방향 (+18)에서 나타났으며, 이는 목표 수준의 지침이 가이드를 제공하지 못하는 요소들입니다. 종합적으로, 미세 조정 언어는 목표 수준의 지침을 보강해야 합니다: 즉, 무엇을 달성할 것인지와 함께 어떻게 실행할 것인지를 명시해야 합니다. 프로젝트 페이지: https://finevla.xlang.ai/

AI 자동 생성 콘텐츠

원문 바로가기

FineVLA: 조종 가능한 시각-언어-행동 (Vision-Language-Action) 정책을 위한 미세 조정 지침 정렬

요약

핵심 포인트

댓글