두 번 속지 마라: 경험 기반 추론을 통한 야생 환경의 역경 적응
요약
비정형 환경에서 모바일 에이전트가 교란으로부터 온라인으로 학습하는 지속 학습 프레임워크를 제안합니다. VLM을 활용해 이상 행동의 원인을 의미론적으로 분석하고, 커널 회귀와 복셀 중심 모델링을 통해 불확실성을 추정하여 예측 및 계획 능력을 향상시킵니다.
핵심 포인트
- VLM을 통한 교란 원인의 의미론적 예측 및 설명
- 커널 회귀를 이용한 일시적 이상 현상의 퓨샷 모델링
- 의미론적 복셀 중심 모델링 기반의 인식론적 불확실성 추정
- 시뮬레이션 및 하드웨어 검증을 통한 프레임워크 유효성 입증
로보틱스(Robotics)에서 위험과 역경(adversity) 모드는 종종 신체 구현(embodiment)에 특화되어 있으며 각 에이전트(agent)에 따라 상대적입니다. 자율 이동 로보틱스(autonomous mobile robotics)의 최전선은 에이전트가 보지 못한 비정형 환경(unstructured environments)의 야생(wild)에서 효과적으로 작동할 수 있도록 하는 것입니다. 보지 못한 비정형 환경에서의 중요한 과제는 특정 로봇에 대한 모든 위험을 예측하는 것이 불가능할 수 있다는 점입니다. 최근 연구들은 대규모 파운데이션 시각-언어 모델(Vision-Language Models, VLMs)을 사용하여 상식적인 위험 목록을 선제적으로 예측하는 방식을 사용해 왔으나, 가능한 상호작용 및 신체 구현 의존적 역경을 포착하는 것은 여전히 어렵습니다. 우리는 모바일 신체 구현 에이전트(mobile embodied agent)가 교란(disturbances)으로부터 온라인으로 학습하고, 의미론(semantics)을 통해 이상 행동의 원인을 귀속시킴으로써 향후 세계에 대한 더 나은 예측과 계획을 가능하게 하는 지속 학습(continual learning) 프레임워크를 제안합니다. 우리의 프레임워크인 "Don't Fool Me Twice"는 먼저 교란을 관찰하고 로봇에 미치는 영향을 설명합니다. 이 설명은 시각적 문맥(visual context)과 함께 증강되어 VLM에 질의함으로써 가능한 원인을 예측합니다. 국소적 교란은 커널 회귀(kernel regression)를 사용하여 특성화되며, 이는 일시적인 이상 현상(transient anomalies)에 대한 효율적인 퓨샷(few-shot) 모델링을 가능하게 합니다. 우리는 의미론적 복셀 중심 모델링(semantic voxel-centric modeling)을 활용하여 인식론적 불확실성(epistemic uncertainty)을 추정하며, 상호작용 중심의 교란을 학습 가능한 공간적 행동으로 취급함으로써 더 풍부한 다운스트림 복구(downstream recovery)를 가능하게 합니다. 우리는 네 가지 가설을 제시하고, 다양한 신체 구현(embodiments)과 역경 모드에 걸쳐 시뮬레이션 및 하드웨어에서 이를 검증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기