본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 07:31

안전한 이동성으로 가는 길: 오픈엔드드 비전-언어 데이터셋을 활용한 통합 교통 기반 모델

요약

본 논문은 도시 규모의 안전하고 통합적인 지능형 교통 시스템(ITS) 구축에 필요한 오픈엔드 추론 능력을 강화하기 위해 대규모 오픈소스 비전-언어 데이터셋인 Land Transportation Dataset (LTD)을 제안합니다. LTD는 다양한 환경 조건에서 수집된 11.6K개의 고품질 VQA 쌍을 포함하며, 다중 객체 위치 지정, 카메라 선택, 그리고 복합적인 위험 분석 등 세 가지 보완적 작업을 통합합니다. 이를 기반으로 개발된 교통 기초 모델 UniVLT는 미시적 자율 주행(AD) 추론과 거시적 교통 분석을 단일 아키텍처에서 통합하여 다양한 도메인의 오픈엔드 추론 작업에서 최고 성능을 달성했습니다.

핵심 포인트

  • 도시 규모의 안전한 이동성을 위해 기존 AD 중심 연구의 한계를 극복하는 것이 중요합니다.
  • Land Transportation Dataset (LTD)는 이질적인 도로변 카메라 환경에서 수집된 11.6K개의 고품질 VQA 쌍을 제공합니다.
  • LTD는 다중 객체 위치 지정, 다중 이미지 카메라 선택, 그리고 복합적 위험 분석 등 세 가지 핵심 작업을 통합하여 모델의 추론 능력을 강화했습니다.
  • 제안된 교통 기초 모델 UniVLT는 미시적 AD와 거시적 교통 분석을 단일 아키텍처에서 통합하는 혁신적인 접근 방식을 제시합니다.

도시 교통 시스템은 새로운 스마트 모빌리티 인프라를 위해 확장 가능한 지능이 필요한 점점 더 커지고 있는 안전 문제를 직면해 있습니다. 최근 기초 모델과 대규모 다중 모드 데이터셋의 발전은 지능형 교통 시스템 (ITS) 의 인식 및 추론을 강화시켰지만, 기존 연구는 여전히 미시적 자율 주행 (AD) 에 중점을 두고 있으며 도시 규모의 교통 분석에는 제한적인 관심을 기울여 왔습니다. 특히, 이질적인 도로변 카메라 관측에 대한 추론을 위한 오픈엔드드 안전 지향적 시각 질문 답변 (VQA) 및 이에 상응하는 기초 모델은 여전히 탐구되지 않았습니다. 이 격차를 해소하기 위해 우리는 도시 교통 환경에서의 오픈엔드드 추론을 위한 대규모 오픈소스 비전-언어 데이터셋인 Land Transportation Dataset (LTD) 을 소개합니다. LTD 는 다양한 도로 기하학, 교통 참여자, 조명 조건 및 악천후를 아우르는 이질적인 도로변 카메라에서 수집된 11.6K 개의 고품질 VQA 쌍을 포함합니다. 이 데이터셋은 세 가지 보완적 작업을 통합합니다: 정밀한 다중 객체 위치 지정 (fine-grained multi-object grounding), 다중 이미지 카메라 선택, 그리고 위험 물체, 기여 요인 및 위험 도로 방향을 추론하기 위해 최소 상관관계가 있는 뷰에 대한 결합된 추론이 필요한 다중 이미지 위험 분석입니다. 주석의 충실도를 보장하기 위해 우리는 다중 모델 비전-언어 생성과 교차 검증, 인간이 개입한 개선 (human-in-the-loop refinement) 을 결합했습니다. LTD 를 바탕으로 우리는 미시적 AD 추론과 거시적 교통 분석을 단일 아키텍처 내에서 통합하는 커리큘럼 기반 지식 전이를 통해 훈련된 교통 기초 모델인 UniVLT 를 추가로 제안합니다. LTD 와 여러 AD 벤치마크에 대한 광범위한 실험은 UniV LT 가 다양한 도메인의 오픈엔드드 추론 작업에서 SOTA 성능을 달성하면서도 기존 기초 모델의 복잡한 다중 뷰 교통 시나리오에서의 한계를 드러냈습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0