본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 02. 04:18

RADIO-ViPE: 임의의 단안 카메라 영상에서 실시간 오픈보컬러블 SLAM

요약

RADIO-ViPE는 일반적인 단안 카메라 영상만을 사용하여 3D 환경을 실시간으로 매핑하는 오픈보컬러블(open-vocabulary) SLAM 시스템입니다. 이 시스템은 단순히 공간 정보를 추정하는 것을 넘어, '스푼 찾기'와 같은 자연어 질의를 이해하고 이를 기반으로 시맨틱한 검색 및 탐색이 가능합니다. 따라서 별도의 깊이 센서나 사전 자세 정보 없이도 임의의 환경에서 강력한 SLAM 기능을 제공합니다.

핵심 포인트

  • 단안 카메라 영상만으로 3D 환경 매핑(SLAM)을 수행할 수 있습니다.
  • 오픈보컬러블 기능을 통해 자연어 질의를 이해하고 시맨틱 검색이 가능합니다.
  • 깊이 센서나 사전 자세 정보가 필요 없어 범용성이 높습니다.
  • 실시간으로 작동하는 온라인 시스템입니다.

RADIO-ViPE: 임의의 단안 카메라 영상에서 실시간 오픈보컬러블 SLAM

원색 RGB 영상으로부터 3D 환경을 매핑하는 동시에 "스푼 찾기" 와 같은 자연어 쿼리를 이해하는 최초의 온라인 시맨틱 SLAM 시스템입니다. 보정, 깊이 센서 또는 사전 자세 정보가 불필요합니다.

프로젝트 페이지:
https://be2rlab.github.io/radio_vipe/
코드:
https://github.com/be2rlab/RADIO-ViPE

토론:
https://huggingface.co/papers/2604.26067

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0