가중치 공간 메타 학습 (Weight-Space Meta-Learning)을 통한 로봇 정책 적응
요약
WIZARD는 고정된 VLA 모델을 위해 작업별 LoRA 파라미터를 직접 예측하는 가중치 공간 메타 학습 프레임워크입니다. 추가적인 미세 조정 없이 언어 지시문과 짧은 영상만으로 새로운 작업에 즉각 적응하여 로봇 조작 성능을 극대화합니다.
핵심 포인트
- LoRA 파라미터를 직접 생성하여 작업별 미세 조정 과정 생략
- 단 한 번의 순방향 패스로 새로운 작업에 대한 적응 가중치 예측
- LIBERO 데이터셋에서 미학습 작업 대비 최대 14배 성능 향상
- 시뮬레이션을 넘어 실제 로봇 도메인에서도 우수한 적응력 입증
시각-언어-행동 (Vision-Language-Action, VLA) 모델은 대규모의 시연 데이터(demonstrations)와 행동 라벨(action labels)로부터 학습된 범용 정책을 가능하게 함으로써, 로봇 조작 (robotic manipulation)을 위한 유망한 패러다임으로 떠오르고 있습니다. 그러나 이러한 모델을 새로운 작업에 적응시키기 위해서는 여전히 일반적으로 작업별 시연, 행동 주석 (action annotations), 그리고 추가적인 미세 조정 (fine-tuning)이 필요하며, 이는 배포 비용을 높이고 확장성을 어렵게 만듭니다. 우리는 고정된 (frozen) VLA 정책을 위해 작업별 LoRA 파라미터를 생성함으로써 작업별 미세 조정을 우회하는 가중치 공간 메타 학습 (weight-space meta-learning) 프레임워크인 WIZARD를 제안합니다. 언어 지시문 (language instruction)과 짧은 시연 영상만 주어지면, WIZARD는 대상 작업의 행동 라벨이나 테스트 시간 최적화 (test-time optimization) 없이 단 한 번의 순방향 패스 (forward pass)로 그에 상응하는 적응 가중치를 예측합니다. 메타 학습 (meta-training) 과정 동안, WIZARD는 작업 증거 (task evidence)를 전문가의 LoRA 업데이트로 직접 매핑하는 법을 배우며, 가중치 공간 내에서의 작업 간 관계를 포착합니다. LIBERO에서의 실험 결과, WIZARD는 보지 못한 데이터셋 컬렉션에서 최대 ~2배, 보지 못한 작업에서 최대 ~14배까지 성능을 향상시킴을 보여주었습니다. Franka Emika Panda 로봇을 이용한 실험에서 WIZARD는 실제 도메인에 적응된 베이스라인 (baseline)보다 지속적으로 우수한 성능을 보였으며, 이는 생성된 어댑터 (adapters)가 시뮬레이션을 넘어 작업 수준의 전문화 (task-level specialization)를 제공함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기