무엇을 할지 배우기 전에 움직이는 법부터 배우기: VLA를 위한 태스크 불가지론적 사전 학습 (Task-Agnostic pretraining)

Vision-Language-Action (VLA) 모델은 근본적으로 전문가 시연(expert demonstrations)의 부족, 즉 대규모로 수집하기 비용이 많이 드는 관측(observations), 지시(instructions), 행동(actions)의 삼중항(triplets)에 의해 병목 현상을 겪습니다. 우리는 이러한 병목 현상이 두 가지 별개의 학습 목표, 즉 물리적 역량(physical competence, 어떻게 움직이는가)을 습득하는 것과 의미적 정렬(semantic alignment, 무엇을 하는가)을 습득하는 것을 혼동하는 데서 기인한다고 주장합니다. 결정적으로, 후자만이 언어 감독(language supervision)을 필요로 합니다. 이러한 분해 가설(Decomposition Hypothesis)을 바탕으로, 우리는 태스크 불가지론적 사전 학습 (Task-Agnostic Pretraining, TAP)을 제안합니다. 이는 자기 지도 역역학 (self-supervised Inverse Dynamics) 목표를 통해 버려진 태스크 외 궤적(off-task trajectories) 및 자율 로봇 놀이(autonomous robot play)를 포함하여 저렴하고 라벨이 없는 상호작용 데이터로부터 전이 가능한 운동 사전 지식(motor priors)을 먼저 학습하는 2단계 프레임워크입니다. 그다음 가벼운 2단계에서는 최소한의 전문가 데이터를 사용하여 이러한 사전 지식을 언어에 접지(grounding)시킵니다. SIMPLER 벤치마크에서 TAP는 100만 개 이상의 전문가 궤적으로 학습된 모델과 대등한 성능을 보이면서도 라벨링된 데이터는 수십 배 적게 사용하였으며, 표준 행동 복제 (behavior cloning) 대비 10%의 절대적인 이득을 달성했습니다. 실제 WidowX 플랫폼에서 TAP는 카메라 섭동(camera perturbations) 상황에서도 25%의 성공률을 유지한 반면, 인터넷 규모의 베이스라인 모델들은 0%로 무너졌습니다. 이는 태스크 불가지론적 사전 학습이 견고하고 전이 가능한 물리적 표현(physical representations)을 생성하며, Embodied AI를 위한 확장 가능한 경로를 제공함을 입증합니다.

Insights

무엇을 할지 배우기 전에 움직이는 법부터 배우기: VLA를 위한 태스크 불가지론적 사전 학습 (Task-Agnostic pretraining)

요약

핵심 포인트

댓글

S&P 500 기업들, 2분기 실적 시즌에서 높은 기준치를 넘길 것으로 예상

RAG 코드 검색 정확도를 55%에서 95%로 높인 방법

Citi, Bitcoin 및 Ether 가격 목표치 대폭 하향 조정

Robinhood, 7월 4일 출시를 앞두고 Trump Accounts 앱 출시

RAG 코드 검색 정확도를 55%에서 95%로 높인 방법

Citi, Bitcoin 및 Ether 가격 목표치 대폭 하향 조정

Robinhood, 7월 4일 출시를 앞두고 Trump Accounts 앱 출시