RADIO-ViPE: 임의의 단안 카메라 영상에서 실시간 오픈보컬러블 SLAM
요약
RADIO-ViPE는 일반적인 단안 카메라 영상만을 사용하여 3D 환경을 실시간으로 매핑하는 오픈보컬러블(open-vocabulary) SLAM 시스템입니다. 이 시스템은 단순히 공간 정보를 추정하는 것을 넘어, '스푼 찾기'와 같은 자연어 질의를 이해하고 이를 기반으로 시맨틱한 검색 및 탐색이 가능합니다. 따라서 별도의 깊이 센서나 사전 자세 정보 없이도 임의의 환경에서 강력한 SLAM 기능을 제공합니다.
핵심 포인트
- 단안 카메라 영상만으로 3D 환경 매핑(SLAM)을 수행할 수 있습니다.
- 오픈보컬러블 기능을 통해 자연어 질의를 이해하고 시맨틱 검색이 가능합니다.
- 깊이 센서나 사전 자세 정보가 필요 없어 범용성이 높습니다.
- 실시간으로 작동하는 온라인 시스템입니다.
RADIO-ViPE: 임의의 단안 카메라 영상에서 실시간 오픈보컬러블 SLAM
원색 RGB 영상으로부터 3D 환경을 매핑하는 동시에 "스푼 찾기" 와 같은 자연어 쿼리를 이해하는 최초의 온라인 시맨틱 SLAM 시스템입니다. 보정, 깊이 센서 또는 사전 자세 정보가 불필요합니다.
프로젝트 페이지:
https://be2rlab.github.io/radio_vipe/
코드:
https://github.com/be2rlab/RADIO-ViPE
…
토론:
https://huggingface.co/papers/2604.26067
…
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기