본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 16. 22:48

Open Vision-Language Models을 활용한 공간 QA 및 내비게이션을 위한 이진 추적 (Binary Tracking)

요약

로봇의 공간 질의응답(Spatial QA)을 위해 오픈 소스 기반의 이진 추적(BinTrack) 기술을 제안합니다. 궤적의 시간적 순서를 활용한 이진 탐색 방식으로 GPT-4o와 같은 폐쇄형 모델에 필적하는 성능과 향상된 추론 속도를 달성했습니다.

핵심 포인트

  • 오픈 소스 기반의 공간 위치 추정 에이전트 BinTrack 제안
  • 이진 탐색을 통해 기존 오픈 소스 대비 정확도 최대 22.8% 향상
  • 최적화된 추론 전략으로 이전 방식 대비 1.5배 이상의 속도 향상
  • 실제 야외 환경 데이터셋인 GangnamLoop 벤치마크 공개

본 연구는 긴 1인칭 시점(egocentric) 경로를 이동하는 서비스 로봇을 위한 공간 질의응답(Spatial Question Answering) 문제를 다룹니다. "집으로 돌아가는 길에 세탁소를 어디서 찾을 수 있을까?"와 같은 질의가 주어지면, 시스템은 하위 내비게이션 구성 요소가 실행할 수 있는 미터법 좌표(metric coordinate)를 반환합니다. 기존의 공간 질의응답(Spatial Question Answering) 접근 방식은 경로 탐색을 위해 GPT-4o와 같은 폐쇄형 모델(closed-source models)을 기반으로 구축된 검색 증강 에이전트(retrieval-augmented agents)를 활용합니다. 그러나 실제 환경에서 작동하는 로봇은 네트워크 불안정성, 통신 지연, 배포 비용 문제로 인해 온라인 폐쇄형 모델에 안정적으로 의존할 수 없는 경우가 많습니다. 이는 로봇 내부(onboard)에서 실행 가능한 오픈 소스 기반의 공간 질의응답(Spatial Question Answering) 접근 방식에 대한 필요성을 창출하지만, 이 방향에 대한 이전 연구는 여전히 제한적입니다. 본 연구는 로봇 궤적(trajectory)의 시간적 순서(temporal ordering)를 활용하는 단순하면서도 효과적인 완전 오픈 소스 공간 위치 추정(spatial-localization) 에이전트인 BinTrack을 제안합니다. BinTrack은 질의로부터 식별된 두 개의 앵커 랜드마크(anchor landmarks) 사이의 궤적 세그먼트(trajectory segments)에 대해 이진 탐색(binary search)을 수행합니다. 이는 다른 오픈 소스 구현체보다 전체 정확도를 최대 22.8% 향상시키며, 지금까지 GPT-4o와 같은 강력한 추론 에이전트를 필요로 했던 가장 도전적인 설정인 SpaceLocQA 벤치마크의 글로벌 카테고리에서 보고된 폐쇄형 모델 결과와 대등한 성능을 보여줍니다. 또한, 최적화된 추론(inference) 전략을 통해 이전 방식보다 일관되게 1.5배 이상의 추론 속도 향상을 달성했습니다. 마지막으로, 본 연구는 익명화 정책을 준수하며 공공 도로에 실제 4족 보행 로봇을 배치하여 수집한 새롭고 실용적인 다회차 야외 벤치마크인 GangnamLoop를 공개합니다. 이는 서로 다른 야외 조건 하에서 동일한 위치를 재방문하며, 로봇의 낮은 시점(viewpoint)과 인간 소유자의 시점을 쌍으로 구성합니다. 소스 코드와 데이터셋은 https://github.com/ndb796/BinaryTracking 에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0