본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 02. 04:15

RADIO-ViPE: 임의의 단안 카메라 영상에서 실시간 오픈보컬러블 SLAM

요약

RADIO-ViPE는 단안 카메라로 촬영된 임의의 비디오 영상으로부터 실시간으로 오픈보컬러블 SLAM을 수행하는 시스템입니다. 이 시스템은 사용자의 자연어 쿼리(예: '스푼 찾기')를 이해하여 온라인 의미론적 매핑이 가능하며, 별도의 보정 과정이나 깊이 센서 없이도 원시 RGB 영상만으로 3D 환경을 정확하게 추정합니다.

핵심 포인트

  • 단안 카메라(monocular video)만을 사용하여 SLAM을 수행할 수 있습니다.
  • 자연어 쿼리를 이해하는 최초의 온라인 의미론적 SLAM 시스템입니다.
  • 보정, 깊이 센서 또는 사전 자세 정보 없이 원시 RGB 영상만으로 3D 환경 매핑이 가능합니다.
  • 실시간 오픈보컬러블(open-vocabulary) 기능을 제공하여 특정 객체 검색 및 추적이 가능합니다.

RADIO-ViPE: 임의의 단안 카메라 (monocular video) 에서 실시간 오픈보컬러블 (open-vocabulary) SLAM

자연어 쿼리(예: "스푼 찾기") 를 이해하는 최초의 온라인 의미론적 SLAM 시스템이며, 보정(calibration), 깊이 센서(depth sensors), 또는 사전 자세(prior poses) 없이 원시 RGB 영상에서 3D 환경을 매핑합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0