arXiv논문2026. 06. 02. 11:41

다음에 무엇을 테스트할 것인가: 주행 VLM에서의 해석 가능한 커버리지 격차 발견

요약

주행 VLM의 검증을 위해 누락된 테스트 슬라이스를 추천하는 SliceScorer와 SliceNav를 제안합니다. SliceScorer는 노출 기반 및 이웃 실패 사전 확률을 결합하여 고위험 커버리지 격차를 식별하며, SliceNav는 LLM을 통해 검증 워크플로우를 자동화합니다.

핵심 포인트

SliceScorer를 통한 해석 가능한 커버리지 격차 식별
LLM 기반 검증 파이프라인 SliceNav 제안
주행 VLM의 안전 필수 검증을 위한 결정론적 점수 산정
기존 방법 대비 고위험 영역 발견 성능 입증

주행 시각-언어 모델 (Vision-Language Models, VLMs)은 운행 설계 영역 (Operational Design Domains, ODDs)에 의해 정의되는 다양한 조건 전반의 장면을 정확하게 이해해야 하지만, 검증은 여전히 부족한 상태입니다. 많은 슬라이스 (slices)가 누락되어 있어 경험적인 실패율을 신뢰하기 어렵습니다. 우리는 (i) 희귀하고 테스트가 부족한 영역을 우선시하기 위한 노출 기반 커버리지 사전 확률 (exposure-based coverage prior)과, (ii) 유사한 테스트 조건으로부터 위험을 전파하는 이웃 실패 사전 확률 (neighbor-failure prior)을 결합하여 누락된 슬라이스 추천을 위한 결정론적 점수 산정 규칙인 SliceScorer를 제안합니다. SliceScorer는 의도적으로 단순하게 설계되었습니다. 즉, 해석 가능하고, 감사 가능하며, 보수적입니다. 이러한 특성은 안전 필수 검증 (safety-critical validation)에 필수적입니다. 선언된 ODD를 넘어선 스트레스 테스트를 위해, 우리는 SliceScorer를 SliceNav 내에 내장했습니다. SliceNav는 LLM이 조율하는 검증 파이프라인으로, 모델이 개발자의 질의를 해석하여 관련 연산자 (분류, 점수 산정, 획득, 평가) 및 어휘 확장을 선택하고, 모든 점수 산정을 결정론적이고 감사 가능하게 유지하면서 검증 워크플로우를 구성합니다. 세 가지 주행 VLM (WiseAD, DriveMM, Cosmos-Reason2-2B)에 대한 실험 결과, SliceNav는 조건 공간 전반에 걸쳐 다양한 추천을 유지하면서도 기존의 슬라이스 발견 방법보다 고위험 커버리지 격차를 더 효과적으로 드러냄을 보여줍니다. 절제 연구 (Ablations)를 통해 두 점수 산정 구성 요소가 모두 기여함을 확인하였으며, 정성적 분석을 통해 개발자 질의부터 타겟팅된 평가에 이르는 엔드 투 엔드 (end-to-end) 워크플로우를 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

다음에 무엇을 테스트할 것인가: 주행 VLM에서의 해석 가능한 커버리지 격차 발견

요약

핵심 포인트

댓글