arXiv논문2026. 04. 28. 07:31

안전한 이동성으로 가는 길: 오픈엔드드 비전-언어 데이터셋을 활용한 통합 교통 기반 모델

요약

본 논문은 도시 규모의 안전하고 통합적인 지능형 교통 시스템(ITS) 구축에 필요한 오픈엔드 추론 능력을 강화하기 위해 대규모 오픈소스 비전-언어 데이터셋인 Land Transportation Dataset (LTD)을 제안합니다. LTD는 다양한 환경 조건에서 수집된 11.6K개의 고품질 VQA 쌍을 포함하며, 다중 객체 위치 지정, 카메라 선택, 그리고 복합적인 위험 분석 등 세 가지 보완적 작업을 통합합니다. 이를 기반으로 개발된 교통 기초 모델 UniVLT는 미시적 자율 주행(AD) 추론과 거시적 교통 분석을 단일 아키텍처에서 통합하여 다양한 도메인의 오픈엔드 추론 작업에서 최고 성능을 달성했습니다.

핵심 포인트

도시 규모의 안전한 이동성을 위해 기존 AD 중심 연구의 한계를 극복하는 것이 중요합니다.
Land Transportation Dataset (LTD)는 이질적인 도로변 카메라 환경에서 수집된 11.6K개의 고품질 VQA 쌍을 제공합니다.
LTD는 다중 객체 위치 지정, 다중 이미지 카메라 선택, 그리고 복합적 위험 분석 등 세 가지 핵심 작업을 통합하여 모델의 추론 능력을 강화했습니다.
제안된 교통 기초 모델 UniVLT는 미시적 AD와 거시적 교통 분석을 단일 아키텍처에서 통합하는 혁신적인 접근 방식을 제시합니다.

도시 교통 시스템은 새로운 스마트 모빌리티 인프라를 위해 확장 가능한 지능이 필요한 점점 더 커지고 있는 안전 문제를 직면해 있습니다. 최근 기초 모델과 대규모 다중 모드 데이터셋의 발전은 지능형 교통 시스템 (ITS) 의 인식 및 추론을 강화시켰지만, 기존 연구는 여전히 미시적 자율 주행 (AD) 에 중점을 두고 있으며 도시 규모의 교통 분석에는 제한적인 관심을 기울여 왔습니다. 특히, 이질적인 도로변 카메라 관측에 대한 추론을 위한 오픈엔드드 안전 지향적 시각 질문 답변 (VQA) 및 이에 상응하는 기초 모델은 여전히 탐구되지 않았습니다. 이 격차를 해소하기 위해 우리는 도시 교통 환경에서의 오픈엔드드 추론을 위한 대규모 오픈소스 비전-언어 데이터셋인 Land Transportation Dataset (LTD) 을 소개합니다. LTD 는 다양한 도로 기하학, 교통 참여자, 조명 조건 및 악천후를 아우르는 이질적인 도로변 카메라에서 수집된 11.6K 개의 고품질 VQA 쌍을 포함합니다. 이 데이터셋은 세 가지 보완적 작업을 통합합니다: 정밀한 다중 객체 위치 지정 (fine-grained multi-object grounding), 다중 이미지 카메라 선택, 그리고 위험 물체, 기여 요인 및 위험 도로 방향을 추론하기 위해 최소 상관관계가 있는 뷰에 대한 결합된 추론이 필요한 다중 이미지 위험 분석입니다. 주석의 충실도를 보장하기 위해 우리는 다중 모델 비전-언어 생성과 교차 검증, 인간이 개입한 개선 (human-in-the-loop refinement) 을 결합했습니다. LTD 를 바탕으로 우리는 미시적 AD 추론과 거시적 교통 분석을 단일 아키텍처 내에서 통합하는 커리큘럼 기반 지식 전이를 통해 훈련된 교통 기초 모델인 UniVLT 를 추가로 제안합니다. LTD 와 여러 AD 벤치마크에 대한 광범위한 실험은 UniV LT 가 다양한 도메인의 오픈엔드드 추론 작업에서 SOTA 성능을 달성하면서도 기존 기초 모델의 복잡한 다중 뷰 교통 시나리오에서의 한계를 드러냈습니다.

AI 자동 생성 콘텐츠

원문 바로가기

안전한 이동성으로 가는 길: 오픈엔드드 비전-언어 데이터셋을 활용한 통합 교통 기반 모델

요약

핵심 포인트

댓글