차량 내 장면 이해를 위한 Vision Language Models의 탐색 기반 테스트
요약
차량 내 장면 이해(ISU)를 위한 Vision Language Models(VLMs)의 성능을 평가하기 위해 렌더링 기반 장면 생성과 탐색 기반 테스트를 결합한 ISU-Test 프레임워크를 제안합니다. 이 방식은 테스트를 최적화 문제로 구성하여 다양한 시나리오를 생성하며, 기존 무작위 방식보다 훨씬 높은 실패율과 커버리지를 달성했습니다.
핵심 포인트
- 차량 내 장면 이해(ISU)를 위한 VLM의 체계적 테스트 필요성 강조
- 렌더링 기반 장면 생성과 탐색 기반 테스트를 결합한 ISU-Test 제안
- 테스트 과정을 최적화 문제로 정의하여 다양한 시나리오 자동 생성
- 무작위 방식 대비 실패율 최대 10배, 실패 커버리지 최대 3.6배 향상
자동차 도메인에서 차량 내 장면 이해 (In-Car Scene Understanding, ISU)는 운전자 주의 분산과 같은 안전에 치명적인 이벤트를 감지할 수 있게 하며, 차량 내 장면을 분석하고 환경(예: 주변 조명)을 조정함으로써 운전자나 승객을 지원합니다. 업계에서는 카메라로 기록된 차량 내 장면을 해석하고 다운스트림 추론 (downstream reasoning) 작업을 위한 정보를 추출하기 위해 시각-언어 모델 (Vision-Language Models, VLMs)을 점점 더 많이 탐색하고 있습니다. 그러나 VLMs는 불완전하거나, 잘못되었거나, 오해의 소지가 있는 장면 설명을 생성할 수 있으며, 이는 체계적인 테스트의 필요성을 강조합니다. 실제 차량 데이터를 수집하는 것은 비용이 많이 들고, 규모를 확장하기 어려우며, 특히 설계 초기 단계에서는 불가능한 경우가 많습니다. 본 논문에서는 ISU 시스템을 평가하기 위해 렌더링 기반 장면 생성과 탐색 기반 테스트 (search-based testing)를 결합한 자동화된 테스트 접근 방식인 ISU-Test를 제시합니다. 테스트를 최적화 문제로 구성하고 장면 파라미터를 체계적으로 수정함으로써, 우리의 방법은 다양한 차량 내 시나리오를 생성하고 광범위한 구성을 탐색합니다. 우리는 두 가지 사례 연구인 질의응답 (question answering) 및 캡셔닝 (captioning)에 대해 산업용 프로토타입과 오픈 소스 VLMs 모두에서 ISU-Test를 평가하고, 무작위 시나리오 생성 (randomized scenario generation) 방식과 비교했습니다. 결과에 따르면 ISU-Test는 베이스라인을 크게 능가하여, 최대 10배 더 높은 실패율과 최대 3.6배 더 높은 실패 커버리지 (failure coverage)를 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기