arXiv논문2026. 05. 25. 16:47

VLM 가이드를 활용한 자율적 프런티어 기반 탐사

요약

VLM의 추론 능력을 활용하여 로봇의 자율 탐사 성능을 높이는 새로운 파이프라인을 제안합니다. 멀티모달 프롬프트를 통해 전략적 의사결정을 수행하며, 기존 방식보다 지도 커버리지를 최대 24% 향상시켰습니다.

핵심 포인트

VLM을 활용한 상위 수준의 전략적 의사결정 구현
기하학적 휴리스틱을 문맥적 공간 추론으로 대체
별도의 학습이 필요 없는 training-free 방식
기존 방식 대비 지도 커버리지 최대 24% 향상

미지의 위험한 환경에 대한 자율 로봇 탐사 (Autonomous robotic exploration)는 오랫동안 지속된 과제이며, 시각-언어 모델 (Vision-Language Models, VLMs)의 고급 추론 능력을 활용함으로써 크게 개선될 수 있습니다. 본 논문에서는 VLM이 상위 수준의 전략적 의사결정을 수행하고, 기존의 하위 수준 로봇 제어 스택 (low-level robotics control stack)을 안내하는 새로운 탐사 파이프라인을 소개합니다. 의사결정 지점에서 로봇은 현재 지도와 잠재적 경로 또는 프런티어 (frontiers)의 시각적 이미지를 포함한 멀티모달 프롬프트 (multimodal prompt)를 생성합니다. VLM은 이 프롬프트를 분석하여 가장 유망한 프런티어를 선택하며, 이를 통해 단순한 기하학적 휴리스틱 (geometric heuristics)을 문맥적 공간 추론 (contextual spatial reasoning)으로 대체합니다. 6개의 실내 환경 시뮬레이션에서 검증된 이 접근 방식은 기존 방법 대비 지도 커버리지 (map coverage)를 최대 24% 향상시킵니다. 우리의 파이프라인은 경량화되어 있고, 별도의 학습이 필요 없으며 (training-free), 표준 센서와 인터넷 연결이 있는 모든 로봇으로 쉽게 전이될 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

VLM 가이드를 활용한 자율적 프런티어 기반 탐사

요약

핵심 포인트

댓글