arXiv논문2026. 06. 24. 11:19

UniDrive: 자율 주행의 해석 가능한 위험 이해를 위한 통합 시각-언어 및 그라운딩 (Grounding) 프레임워크

요약

UniDrive는 자율 주행의 위험 이해를 위해 시간적 추론과 고해상도 인지를 결합한 통합 시각-언어 및 그라운딩 프레임워크입니다. 다중 프레임 입력과 게이트형 교차 주의 집중 모듈을 통해 정밀한 공간적 증거와 동적 컨텍스트를 정렬하여 위험을 설명합니다.

핵심 포인트

시간적 추론과 고해상도 인지 브랜치를 결합하여 트레이드오프 해결
자연어 위험 설명과 객체 경계 상자(bounding-box)를 동시에 생성
DRAMA-Reasoning 벤치마크에서 기존 베이스라인 대비 우수한 성능 입증
작은 객체 위치 추정 및 NuScenes, BDD100K에 대한 제로샷 일반화 능력 보유

최근 멀티모달 대규모 언어 모델 (MLLMs)은 자율 주행 장면 이해에 있어 강력한 잠재력을 보여주었으나, 기존 방식들은 여전히 시간적 추론 (temporal reasoning)과 공간적 정밀도 (spatial precision) 사이의 근본적인 트레이드오프 (trade-off) 문제에 직면해 있습니다. 단일 프레임 또는 저해상도 입력에 의존하는 모델들은 작고 멀리 있거나 부분적으로 가려진 위험 요소를 놓치는 경우가 많으며, 언어 중심의 주행 모델들은 설명에 대한 근거가 되는 그라운딩 (grounded) 증거를 제한적으로 제공하는 경우가 빈번합니다. 이러한 격차를 해소하기 위해, 우리는 자율 주행의 해석 가능한 위험 이해를 위한 통합 시각-언어 및 그라운딩 (grounding) 프레임워크인 UniDrive를 제안합니다. UniDrive는 다중 프레임 시각 입력으로부터 장면의 역동성을 모델링하는 시간적 추론 (temporal reasoning) 브랜치와, 최신 프레임으로부터 미세한 공간적 세부 사항을 보존하는 고해상도 인지 (perception) 브랜치를 결합합니다. 이 두 브랜치는 게이트형 교차 주의 집중 (gated cross-attention) 융합 모듈을 통해 통합되어, 동적인 컨텍스트 (context)가 정밀한 공간적 증거와 정렬될 수 있도록 합니다. 융합된 표현 (fused representation)을 기반으로, UniDrive는 자연어 위험 설명과 위험 객체에 대한 그라운딩된 경계 상자 (bounding-box) 출력을 공동으로 생성합니다. DRAMA-Reasoning 벤치마크에서의 실험 결과, UniDrive는 캡셔닝 (captioning)과 위험 객체 그라운딩 (risk-object grounding) 모두에서 대표적인 이미지 기반 및 비디오 기반 베이스라인 (baselines)보다 뛰어난 성능을 보였습니다. 특히, UniDrive는 검증 데이터셋 (validation split)에서 최고의 종합 성능을 달성하였으며, 작은 객체 위치 추정 (small-object localization), NuScenes 및 BDD100K에 대한 제로샷 일반화 (zero-shot generalization), 그리고 인간이 평가한 해석 가능성 및 신뢰성 측면에서 명확한 이점을 입증했습니다. 이러한 결과는 시간적 의미론 (temporal semantics)과 고해상도 인지 (high-resolution perception)를 명시적으로 결합하는 것이 해석 가능하고 안전 지향적인 자율 주행 시스템을 위한 더 강력한 토대를 제공함을 시사합니다. 코드는 https://github.com/pixeli99/unidrive-dev 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

UniDrive: 자율 주행의 해석 가능한 위험 이해를 위한 통합 시각-언어 및 그라운딩 (Grounding) 프레임워크

요약

핵심 포인트

댓글