무엇을 할지 배우기 전에 움직이는 법부터 배우기: VLA를 위한 태스크 불가지론적 사전 학습 (Task-Agnostic pretraining)
요약
VLA 모델의 데이터 부족 문제를 해결하기 위해 물리적 역량과 의미적 정렬을 분리하는 '태스크 불가지론적 사전 학습(TAP)' 프레임워크를 제안합니다. 라벨 없는 데이터를 통해 운동 사전 지식을 먼저 학습함으로써, 훨씬 적은 전문가 데이터로도 높은 성능과 견고함을 달성했습니다.
핵심 포인트
- 물리적 역량과 의미적 정렬을 분리하여 학습 효율 극대화
- 라벨 없는 데이터를 활용한 자기 지도 역역학 기반 사전 학습
- 최소한의 전문가 데이터로 대규모 학습 모델과 대등한 성능 구현
- 카메라 섭동 등 외부 환경 변화에 대한 높은 견고성 입증
Vision-Language-Action (VLA) 모델은 근본적으로 전문가 시연(expert demonstrations)의 부족, 즉 대규모로 수집하기 비용이 많이 드는 관측(observations), 지시(instructions), 행동(actions)의 삼중항(triplets)에 의해 병목 현상을 겪습니다. 우리는 이러한 병목 현상이 두 가지 별개의 학습 목표, 즉 물리적 역량(physical competence, 어떻게 움직이는가)을 습득하는 것과 의미적 정렬(semantic alignment, 무엇을 하는가)을 습득하는 것을 혼동하는 데서 기인한다고 주장합니다. 결정적으로, 후자만이 언어 감독(language supervision)을 필요로 합니다. 이러한 분해 가설(Decomposition Hypothesis)을 바탕으로, 우리는 태스크 불가지론적 사전 학습 (Task-Agnostic Pretraining, TAP)을 제안합니다. 이는 자기 지도 역역학 (self-supervised Inverse Dynamics) 목표를 통해 버려진 태스크 외 궤적(off-task trajectories) 및 자율 로봇 놀이(autonomous robot play)를 포함하여 저렴하고 라벨이 없는 상호작용 데이터로부터 전이 가능한 운동 사전 지식(motor priors)을 먼저 학습하는 2단계 프레임워크입니다. 그다음 가벼운 2단계에서는 최소한의 전문가 데이터를 사용하여 이러한 사전 지식을 언어에 접지(grounding)시킵니다. SIMPLER 벤치마크에서 TAP는 100만 개 이상의 전문가 궤적으로 학습된 모델과 대등한 성능을 보이면서도 라벨링된 데이터는 수십 배 적게 사용하였으며, 표준 행동 복제 (behavior cloning) 대비 10%의 절대적인 이득을 달성했습니다. 실제 WidowX 플랫폼에서 TAP는 카메라 섭동(camera perturbations) 상황에서도 25%의 성공률을 유지한 반면, 인터넷 규모의 베이스라인 모델들은 0%로 무너졌습니다. 이는 태스크 불가지론적 사전 학습이 견고하고 전이 가능한 물리적 표현(physical representations)을 생성하며, Embodied AI를 위한 확장 가능한 경로를 제공함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기