본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 16. 12:41

CrossMaps: 로버 내비게이션을 위한 신뢰도 인식 오픈 보캐블러리 (Open-Vocabulary) 시맨틱 매핑

요약

CrossMaps는 로버 내비게이션을 위해 RGB-D 데이터로부터 언어 질의가 가능한 시맨틱 지도를 구축하는 실시간 파이프라인입니다. CLIP 임베딩과 이중 메모리 아키텍처를 활용하여 센서 신뢰도를 인식하고 일관된 시맨틱 랜드마크를 생성합니다.

핵심 포인트

  • 신뢰도 인식 오픈 보캐블러리 시맨틱 매핑 기술 제시
  • STM과 LTM으로 구성된 이중 메모리 아키텍처 활용
  • 다중 스케일 CLIP 임베딩과 신뢰도 인식 융합 통합
  • Jetson Orin 기반 UGV에서 실시간 실행 가능

로버(Rovers)는 객체와 센서 품질(예: 거리 신뢰도, 조명 아티팩트, 데이터 밀도)을 모두 인코딩하는 공간 지도를 유지하기 위해 인지(Perception)에 의존하며, 이는 부분 관측 가능성(Partial Observability) 하에서의 데이터 융합(Data Fusion), 임베딩 업데이트 및 내비게이션을 안내합니다. 이러한 결합된 인지-내비게이션 프로세스를 연구하기 위해, 우리는 RGB-D 데이터로부터 언어 질의가 가능한 지도를 구축하는 실시간 신뢰도 인식 오픈 보캐블러리 (Open-Vocabulary) 시맨틱 매핑 파이프라인인 CrossMaps를 제시합니다. VLMaps 스타일의 접근 방식을 기반으로 하는 CrossMaps는 다중 스케일 CLIP 임베딩을 신뢰도 인식 융합(Confidence-aware Fusion) 및 단기 메모리 (Short-Term Memory, STM)와 장기 메모리 (Long-Term Memory, LTM)로 구성된 이중 메모리 아키텍처와 통합합니다. STM은 기하학적, 시맨틱 및 시간적 신뢰도 단서를 사용하여 노이즈가 있는 시각적 관측치를 집계하며, 신뢰할 수 있고 일관된 셀(Cell)은 지속적인 시맨틱 랜드마크로서 LTM으로 승격됩니다. Jetson Orin 기반의 UGV와 SLAM을 함께 배포하도록 설계된 CrossMaps는 실시간으로 실행되며, 로버 내비게이션을 안내하기 위해 자연어로 질의할 수 있는 시맨틱 히트맵(Semantic Heatmaps)을 생성합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0