RECALL: Vision-Language-Action 모델의 능동적 평생 학습을 위한 회복 경험 수집 (Recovery Experience
요약
VLA 모델의 효율적인 미세 조정을 위해 불확실성 기반의 능동적 데이터 수집 패러다임을 제안합니다. 능동적 회복 데이터 사용 시 발생하는 치명적 망각 문제를 해결하기 위한 지속적 학습 기술을 평가하고 가소성과 유지력 사이의 트레이드오프를 분석합니다.
핵심 포인트
- 불확실성 기반 능동적 데이터 수집이 수동적 방식보다 효율적임
- 회복 데이터만으로 미세 조정 시 치명적 망각 발생 가능성 확인
- 리플레이 기반 데이터 혼합 및 탄성 가중치 통합 기술 평가
- VLA 모델의 적응 효율성과 기존 행동 유지 간의 트레이드오프 식별
Vision-Language-Action (VLA) 모델은 일반적으로 수동적 모방 학습 (passive imitation learning)을 통해 미세 조정 (fine-tuning)됩니다. 이 방식은 정책 (policy)이 성능이 저조한 작업에 대해 추가적인 시연 (demonstrations)을 수집하는 과정을 포함합니다. 이러한 접근 방식은 몇 가지 단점이 있습니다. 데이터 수집이 트리거되기 전에 로봇이 반드시 실패해야 하며, 어떤 상태 (states)에 감독 (supervision)이 필요한지에 대한 가이드가 거의 제공되지 않고, 정책이 이미 잘 수행하고 있는 작업의 중복된 부분에 시연자의 노력을 낭비하게 만듭니다. 본 논문에서 우리는 VLA를 위한 능동적이고 지속적인 학습 (active, continual learning) 패러다임을 제안합니다. 우리는 불확실성 기반 (uncertainty-guided)의 능동적 데이터 수집이 수동적으로 수집된 시연을 사용할 때보다 더 효율적인 미세 조정을 이끌어낸다는 것을 입증합니다. 그러나 우리는 능동적으로 수집된 회복 (recovery) 데이터로만 미세 조정을 할 경우 치명적 망각 (catastrophic forgetting)이 발생한다는 사실도 발견했습니다. 우리는 리플레이 기반 데이터 혼합 (replay-based data mixing) 및 탄성 가중치 통합 (elastic weight consolidation)을 포함한 지속적 학습 기술들을 평가하며, 불확실성 기반 회복 데이터에 대한 가소성 (plasticity)과 이전에 학습된 행동의 유지 (retention) 사이의 트레이드오프 (tradeoffs)를 식별합니다. 전반적으로, 우리의 연구는 자기회귀 (autoregressive) VLA를 위한 능동적 지속 학습에 대한 경험적 연구에 기여하며, 불확실성 기반 회복 시연이 적응 효율성을 향상시킬 수 있음을 확립하는 동시에, 타겟팅된 새로운 데이터가 대규모 로봇 정책에 통합될 때 발생하는 미해결 과제들을 밝혀냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기