Vision-Language-Action 모델에서 선언적 지식과 절차적 지식의 분리
요약
본 연구는 VLA 모델이 선언적 지식과 절차적 지식을 분리하지 못해 제로샷 기술 전이에 한계가 있는 문제를 다룹니다. 이를 해결하기 위해 정보 흐름을 재구조화한 w²VLA 모델을 제안하여, 새로운 객체에 대한 견고한 행동 복제와 전례 없는 제로샷 전이 능력을 입증했습니다.
핵심 포인트
- 기존 VLA 모델의 선언적/절차적 지식 혼재 문제 지적
- 정보 흐름 재구조화를 통한 w²VLA 모델 제안
- 구성적이고 해석 가능한 방식의 로봇 상태 시퀀스 조절
- 미학습 객체에 대한 뛰어난 제로샷 기술 전이 성능 달성
범용 로봇 에이전트(generalist robotic agents)를 실제 환경에 배치하기 위해서는 전이 가능한 기술(transferable skills)이 필요합니다. 구체적으로, 특정 객체에 특화된 시연(demonstrations)으로부터 행동을 복제하도록 훈련된 정책(policy)은 해당 객체를 넘어 일반화될 수 있어야 하며, 그렇지 않으면 데이터 수집 요구 사항이 감당할 수 없는 수준이 됩니다. 최근에는 수십억 개의 파라미터를 가진 사전 훈련된 시각-언어 모델(Vision-Language Models, VLMs)을 대규모 로봇 데이터셋으로 먼저 미세 조정(fine-tuning)한 후, 더 적은 수의 시나리오별 시연 데이터로 다시 미세 조정하는 방식이 시각-언어-행동(Vision-Language-Action, VLA) 모델을 설계하는 지배적인 패러다임으로 부상했습니다. 이러한 정책들은 분포 내(in-distribution)에서는 최첨단(state-of-the-art) 조작 성능을 달성하지만, 미세한 공간적, 의미적, 그리고 작업적 변화에는 여전히 취약합니다. 본 연구에서는 현재의 모델들이 파라미터에 인코딩된 선언적 지식(declarative, 즉 개념 및 엔티티 의미론)과 절차적 지식(procedural, 즉 무언가를 수행하는 방법)을 분리하지 못하는 문제를 다루며, 이는 새로운 객체로의 제로샷 기술 전이(zero-shot skill transfer)를 가로막는 근본적인 병목 현상입니다. 이를 해결하기 위해, 우리는 정보 흐름을 재구조화한 새로운 VLA 모델인 w$^{2}$VLA를 제안합니다. VLM 인코더의 모든 멀티모달 토큰을 거대하고 불투명한 트랜스포머 기반 행동 전문가(transformer-based action expert)에 입력하는 대신, 우리의 접근 방식은 시각적, 공간적, 그리고 기술적 정보를 구성적이고 해석 가능한 방식으로 로봇 상태 시퀀스(robot state sequence)를 조절(modulate)합니다. 대중적이고 최첨단인 기존 VLA들과 달리, 우리는 우리의 모듈형 접근 방식이 지식 표현을 성공적으로 분리하여, 견고한 행동 복제(behavior cloning)와 이전에 본 적 없는 서로 다른 객체들에 대한 전례 없는 제로샷 기술 전이 능력을 가능하게 함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기