arXiv논문2026. 06. 23. 12:36

주행 영상에서 시뮬레이션 가능한 시나리오로

요약

주행 영상에서 시뮬레이션 가능한 시나리오를 자동으로 생성하는 새로운 프레임워크 D-V2S를 소개합니다. VLM을 통해 도로 상황을 분석하고 LLM을 통해 실행 가능한 시나리오로 변환하여 자율주행 안전성 평가를 돕습니다.

핵심 포인트

D-V2S 프레임워크는 영상 분석과 시나리오 생성을 결합함
VLM을 활용해 도로 레이아웃과 교통 상호작용을 자연어로 포착
LLM을 통해 자연어 설명을 실행 가능한 시나리오로 변환
실제 영상의 의미론적 요소 중 90%를 포함하는 시나리오 생성 가능
기존 SOTA 방법론 대비 75%의 선호도 달성

자율주행 자동차 (AVs)는 일상적인 교통 상황부터 희귀한 이벤트에 이르기까지 다양한 주행 시나리오에 직면합니다. 안전성을 평가하기 위해서는 시뮬레이션 (simulation)이 핵심적인 역할을 수행하며, 이러한 시나리오들을 제어 가능하고, 반복 가능하며, 확장 가능한 방식으로 재현하는 것이 매우 중요합니다. 본 논문은 주행 영상으로부터 시뮬레이션 가능한 주행 시나리오를 자동으로 생성하는 새로운 프레임워크인 D-V2S를 소개합니다. D-V2S는 두 단계로 작동합니다: 먼저 주행 기록 분석기 (Driving Record Analyzer, DRA)가 우리가 설계한 프롬프트 (prompt)와 함께 시각 언어 모델 (Vision Language Model, VLM)을 사용하여 입력 영상으로부터 도로 레이아웃과 동적인 교통 상호작용을 포착하는 자연어 설명을 생성합니다; 그 다음, 시나리오 생성기 (Scenario Generator, SG)가 대규모 언어 모델 (Large Language Model, LLM)과 우리의 조건부 컨텍스트 (conditioning context)를 사용하여 이러한 설명들을 실행 가능한 시나리오로 변환합니다. 시뮬레이션을 통해, 우리는 D-V2S가 영상의 관련 의미론적 요소 (semantic elements) 중 90%가 존재하는 시나리오를 생성함을 보여줍니다. 또한 우리는 D-V2S가 실제 주행 영상을 시뮬레이션 가능한 시나리오로 변환하는 능력을 입증하는 정성적 결과를 제공합니다. 나아가, 우리는 D-V2S 모듈에 대한 의미론적 분석 및 인간 주행 기반의 절제 연구 (ablative analyses)를 모두 제공합니다. 특히, 우리는 VLM의 선택이 DRA에 어떻게 중요한지, 그리고 우리의 SG가 다른 최첨단 (state-of-the-art) 방법론들에 비해 어떻게 75%의 선호도를 달성하는지를 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

주행 영상에서 시뮬레이션 가능한 시나리오로

요약

핵심 포인트

댓글