arXiv논문2026. 06. 23. 11:20

VLA-FAIL: 미세 조정된 Vision-Language-Action 모델을 위한 효율적인 작업 실패 탐지

요약

VLA 모델의 실세계 배포를 위해 실패 데이터 없이도 효율적으로 작업 실패를 탐지하는 VLA-FAIL 프레임워크를 제안합니다. LLMD와 ACC라는 두 가지 새로운 탐지 기법을 결합하여 계산 비용을 최소화하면서도 높은 정확도로 실패를 조기에 감지합니다.

핵심 포인트

실패 데이터 없이도 작동하는 가벼운 실패 탐지 프레임워크 제안
LLMD를 통한 분포 외(OOD) 상태 탐지 및 ACC를 통한 액션 일관성 검증
탐지 정확도와 지연 시간의 트레이드오프를 평가하는 AUCPDT 지표 도입
기존 베이스라인 대비 낮은 오버헤드와 높은 탐지 성능 입증

Vision-language-action 모델 (VLAs)은 많은 로봇 조작 작업에서 최첨단 성능을 달성하지만, 분포 외 (out-of-distribution) 시나리오에서는 여전히 예측 불가능하게 행동할 수 있습니다. 따라서 VLAs의 안전한 실세계 배포를 위해서는 실행 시간 (runtime) 실패 탐지가 필수적입니다. 그러나 기존의 작업 실패 탐지기들은 계산 비용이 많이 드는 액션 샘플링 (action sampling)을 요구하거나, VLAs에 대한 적용 가능성을 제한하는 아키텍처적 가정에 기반하거나, 혹은 실패 롤아웃 (failure rollouts)에 대한 접근이 필요합니다. 우리는 실패 데이터 없이도 최소한의 오버헤드로 두 가지 새로운 실패 탐지기를 결합한, VLAs를 위한 가볍고 폭넓게 적용 가능한 실패 탐지 프레임워크인 VLA-FAIL을 제안합니다. 첫 번째인 마지막 레이어 마할라노비스 거리 (last-layer Mahalanobis distance, LLMD)는 훈련 데이터 대비 마지막 레이어 특징 (features)의 토큰별 편차를 측정하여 분포 외 (out-of-distribution) 상태를 탐지합니다. 두 번째인 액션 청크 일관성 (action chunk consistency, ACC)은 후퇴 지평 제어 (receding-horizon control)에 의해 유도되는 시간적 중첩을 활용하여, 연속적인 액션 청크 (action chunks)가 일관되지 않을 때 실패를 탐지합니다. 탐지 정확도와 탐지 지연 시간 사이의 트레이드오프를 포착하기 위해, 우리는 정밀도 (precision), 재현율 (recall), 그리고 탐지 시간을 공동으로 평가하는 임계값 독립적 지표인 AUCPDT를 도입합니다. 광범위한 실세계 및 시뮬레이션 실험을 통해, 우리는 LLMD와 ACC가 상호 보완적인 실패 모드를 포착하며, 이들의 결합이 다양한 작업에 걸쳐 신뢰할 수 있고 조기 실패 탐지를 가능하게 하여, 종종 훨씬 더 비용이 많이 드는 베이스라인 방법들을 능가함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

VLA-FAIL: 미세 조정된 Vision-Language-Action 모델을 위한 효율적인 작업 실패 탐지

요약

핵심 포인트

댓글