LIBERO-Occ: 시점 상상 (Viewpoint Imagination)을 통한 장면 유발 폐쇄 (Scene-Induced
요약
VLA 모델이 폐쇄(occlusion) 상황에서 겪는 성능 저하 문제를 해결하기 위해 LIBERO-Occ 벤치마크와 VIM 기술을 제안합니다. VIM은 추가 카메라 없이도 폐쇄된 영역의 보완적 시점을 상상하여 행동 예측의 강건성을 높입니다.
핵심 포인트
- 장면 유발 폐쇄 문제를 다루는 LIBERO-Occ 벤치마크 소개
- 시점 상상(VIM)을 통한 인지 완성 메커니즘 제안
- 추가 하드웨어 없이 폐쇄 상황에서의 VLA 모델 강건성 향상
- 관찰된 증거와 상상된 증거를 결합한 행동 예측 수행
시각-언어-행동 (Vision-Language-Action, VLA) 모델은 표준 조작 (manipulation) 벤치마크에서 강력한 성능을 달성하지만, 대부분의 평가는 작업 관련 객체가 완전히 가시적이라고 가정합니다. 이러한 가정은 폐쇄 (occlusion)로 인해 조작이 부분적으로 관찰 가능한 (partially observable) 실제 환경에서는 종종 실패합니다. 본 논문에서는 VLA 모델의 근본적인 과제로서 extit{장면 유발 폐쇄 (scene-induced occlusion)}를 연구하고, LIBERO의 폐쇄 중심 확장 버전인 extbf{LIBERO-Occ}를 소개합니다. 실험 결과, 최신 VLA 모델들은 폐쇄 상황에서 상당한 성능 저하를 겪는 것으로 나타났습니다. 이 문제를 해결하기 위해, 우리는 폐쇄된 주요 관측값으로부터 보완적인 시점을 생성하고, 관찰된 증거와 상상된 증거 모두를 조건으로 하여 행동 예측을 수행하는 extbf{시점 상상 (Viewpoint Imagination, VIM)}을 제안합니다. VIM은 배포 시 추가 카메라를 필요로 하지 않으면서도 다양한 작업 세트, 폐쇄 유형 및 심각도 수준에 걸쳐 강건성 (robustness)을 향상시키며, 이는 시점 상상이 부분적으로 관찰 가능한 조작 환경에서 인지 완성 (perception completion)을 위한 유망한 메커니즘임을 시사합니다. 우리의 벤치마크와 관련 코드는 다음에서 확인할 수 있습니다:
ef{https://github.com/litsh/Libero-Occ}{https://github.com/litsh/Libero-Occ}.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기