Flow 기반 시각-언어-행동(Vision-Language-Action) 모델을 위한 불확실성 정량화 (Uncertainty
요약
Flow matching 기반의 시각-언어-행동(VLA) 모델에서 인식론적 불확실성을 정량화하는 새로운 방법을 제안합니다. 속도장 불일치(VFD)를 활용해 모델의 실패를 감지하고, 적은 데이터로도 새로운 작업에 적응할 수 있는 SAVE 프레임워크를 선보입니다.
핵심 포인트
- VFD를 활용한 flow-matching 모델의 효율적인 불확실성 정량화
- 실패 감지 및 능동적 미세 조정을 통한 VLA 모델의 신뢰성 향상
- SAVE 프레임워크를 통해 전문가 시연 데이터 필요량 22% 절감
- LIBERO 벤치마크 실험을 통한 VFD의 성능 및 보정 능력 입증
시각-언어-행동 모델 (Vision-language-action models, VLAs)은 대규모 로봇 데이터셋을 통해 flow matching (흐름 매칭) 방식으로 학습된 표현력이 풍부한 생성형 행동 헤드 (generative action heads)를 시각-언어 백본 (vision-language backbones)과 결합합니다. 로봇 조작 (robotic manipulation) 분야에서의 강력한 경험적 성능에도 불구하고, VLAs는 예측에 대한 신뢰도를 정량화하고 자신의 행동이 신뢰할 수 없는 시점을 감지하는 메커니즘이 부족합니다. 이는 모델이 사전 학습 분포 (pretraining distribution)를 벗어난 시나리오에 필연적으로 직면하게 되고 경고 없이 실패할 수 있는 비정상 상태 (non-stationary) 환경에서의 실제 배포에 있어 결정적인 한계로 작용합니다. 이를 해결하기 위해, 우리는 소규모 앙상블 (ensemble) 전반의 속도장 불일치 (velocity-field disagreement, VFD)를 활용하여 flow-matching 모델에서 인식론적 불확실성 (epistemic uncertainty)을 정량화하는 효율적인 방법을 도출합니다. 우리는 이 불확실성 추정치를 배포 중 실패 감지 및 flow 기반 VLAs의 능동적 미세 조정 (active fine-tuning)에 성공적으로 사용합니다. 이를 위해, 우리는 새로운 작업에 VLAs를 적응시키는 데 필요한 비용이 많이 드는 전문가 시연 (expert demonstrations)의 수를 줄여주는 불확실성 가이드 능동 멀티태스크 미세 조정 (uncertainty-guided active multitask fine-tuning) 프레임워크인 SAVE를 제안합니다. LIBERO 벤치마크에 대한 광범위한 실험을 통해, 우리는 VFD가 다운스트림 성능 (downstream performance)을 예측하는 더 잘 보정된 (better-calibrated) 불확실성 추정치를 생성하며, VFD가 실패 감지에서 강력한 성능을 달성하고, SAVE를 이용한 불확실성 가이드 데이터 수집이 베이스라인보다 최소 22% 적은 샘플을 필요로 한다는 것을 입증합니다. 요약하자면, 본 연구는 flow 기반 VLAs에서 인식론적 불확실성을 정량화하는 것이 실패 인지 능력과 적응 능력을 모두 향상시킨다는 것을 보여줍니다. 프로젝트 웹사이트: tum-lsy.github.io/uq_vla/.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기