See-and-Reach: 시야 범위 내 UAV를 위한 정밀 시각-언어 내비게이션
요약
UAV의 정밀한 시각-언어 내비게이션을 위해 '보고 도달하기(see-and-reach)' 단계를 분리한 UAV-VLN-FOV 태스크와 3DG-VLN 프레임워크를 제안합니다. 3DG-VLN은 동적 3D 방향 단서를 활용해 시각적 그라운딩과 공간 정렬을 강화하여 목표 도달 성공률을 높였습니다.
핵심 포인트
- UAV의 시야 내 목표 정밀 도달을 위한 UAV-VLN-FOV 태스크 제안
- 3D 방향 단서를 활용한 시각-언어 웨이포인트 예측 프레임워크 3DG-VLN 개발
- 고해상도 전방 및 하방 뷰를 활용한 세밀한 시각적·기하학적 정보 보존
- 폐루프 내비게이션 중 목표 상대 방향을 온라인 업데이트하여 방향 드리프트 감소
- 기존 베이스라인 대비 성공률 13.82% 향상 및 전용 고해상도 벤치마크 구축
UAV 시각-언어 내비게이션 (UAV-VLN)은 일반적으로 장거리 목표 발견과 최종 목표 접근이 공동으로 최적화 및 평가되는 통합적인 탐색 및 도달 (search-and-reach) 문제로 정식화됩니다. 이러한 정식화는 항공 임보디드 에이전트 (aerial embodied agents)의 핵심 능력, 즉 UAV가 가시적인 목표를 정확하게 그라운딩 (grounding)하고, 목표가 시야 (field of view)에 들어왔을 때 시각-언어 증거를 정밀한 3D 동작으로 변환할 수 있는지 여부를 평가하는 것을 어렵게 만듭니다. 이러한 한계를 해결하기 위해, 우리는 '보고 도달하기 (see-and-reach)' 단계를 분리하여 최종 도달 능력을 더욱 진단적으로 평가할 수 있게 하는 목표 가시 내비게이션 태스크인 UAV-VLN-FOV를 소개합니다. 나아가, 우리는 정밀한 목표 도달을 위해 세밀한 시각적 그라운딩 (visual grounding)과 공간적 방향 정렬 (spatial direction alignment)을 강화하고자 동적 3D 방향 단서 (dynamic 3D direction cues)에 의해 유도되는 시각-언어 웨이포인트 예측 프레임워크인 3DG-VLN을 제안합니다. 구체적으로, 3DG-VLN은 고해상도 전방 뷰 (front-view) 및 하방 뷰 (downward-view) 관측치를 적응적으로 처리하여 목표 그라운딩을 위한 세밀한 시각적 및 기하학적 세부 정보를 보존합니다. 또한 폐루프 내비게이션 (closed-loop navigation) 중에 목표 상대 방향을 온라인으로 업데이트하여, 에이전트가 목표와 공간적 정렬을 유지하고 누적된 방향 드리프트 (direction drift)를 줄일 수 있도록 합니다. 이 태스크를 지원하기 위해, 우리는 목표 지향적 상위 수준 지시문, 고해상도 전방 뷰 및 하방 뷰 에고센트릭 (egocentric) 관측치, 그리고 연속적인 3D 웨이포인트 주석을 포함하는 2,717개의 궤적으로 구성된 전용 고해상도 벤치마크를 구축했습니다. 실험 결과, 3DG-VLN은 경쟁력 있는 UAV-VLN 베이스라인들을 능가하며 성공률에서 13.82%의 향상을 달성했습니다. 실제 환경 테스트를 통해 실용적인 '보고 도달하기' 내비게이션에 대한 3DG-VLN의 잠재력을 추가로 입증했습니다. 소스 코드와 벤치마크는 https://github.com/xuefanfu/3DG-VLN 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기