본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 25. 16:47

VLM 가이드를 활용한 자율적 프런티어 기반 탐사

요약

VLM의 추론 능력을 활용하여 로봇의 자율 탐사 성능을 높이는 새로운 파이프라인을 제안합니다. 멀티모달 프롬프트를 통해 전략적 의사결정을 수행하며, 기존 방식보다 지도 커버리지를 최대 24% 향상시켰습니다.

핵심 포인트

  • VLM을 활용한 상위 수준의 전략적 의사결정 구현
  • 기하학적 휴리스틱을 문맥적 공간 추론으로 대체
  • 별도의 학습이 필요 없는 training-free 방식
  • 기존 방식 대비 지도 커버리지 최대 24% 향상

미지의 위험한 환경에 대한 자율 로봇 탐사 (Autonomous robotic exploration)는 오랫동안 지속된 과제이며, 시각-언어 모델 (Vision-Language Models, VLMs)의 고급 추론 능력을 활용함으로써 크게 개선될 수 있습니다. 본 논문에서는 VLM이 상위 수준의 전략적 의사결정을 수행하고, 기존의 하위 수준 로봇 제어 스택 (low-level robotics control stack)을 안내하는 새로운 탐사 파이프라인을 소개합니다. 의사결정 지점에서 로봇은 현재 지도와 잠재적 경로 또는 프런티어 (frontiers)의 시각적 이미지를 포함한 멀티모달 프롬프트 (multimodal prompt)를 생성합니다. VLM은 이 프롬프트를 분석하여 가장 유망한 프런티어를 선택하며, 이를 통해 단순한 기하학적 휴리스틱 (geometric heuristics)을 문맥적 공간 추론 (contextual spatial reasoning)으로 대체합니다. 6개의 실내 환경 시뮬레이션에서 검증된 이 접근 방식은 기존 방법 대비 지도 커버리지 (map coverage)를 최대 24% 향상시킵니다. 우리의 파이프라인은 경량화되어 있고, 별도의 학습이 필요 없으며 (training-free), 표준 센서와 인터넷 연결이 있는 모든 로봇으로 쉽게 전이될 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0