arXiv논문2026. 06. 09. 11:50

답변은 어디에서 오는가? 자율 주행을 위한 다중 뷰 MLLM의 뷰 레벨 시각적 근거 식별 벤치마킹

요약

자율 주행 MLLM이 올바른 시각적 근거를 바탕으로 답변하는지 평가하기 위한 새로운 다중 뷰 벤치마크를 제안합니다. NuScenes 데이터를 활용하여 모델이 질문에 답할 때 어떤 카메라 뷰를 참조했는지 식별하는 능력을 측정합니다.

핵심 포인트

답변 정확도와 시각적 근거 식별 간의 격차 해소
NuScenes 기반의 다중 뷰 시각적 질의응답 벤치마크 도입
인과 관계 및 반사실적 추론을 포함한 122개 질의응답 쌍 구성
카메라 뷰 선택과 답변 생성을 결합한 공동 예측 평가

멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 시각적 추론 (Visual Reasoning) 벤치마크에서 강력한 성과를 거두고 있지만, 답변의 정확도만으로는 모델이 올바른 시각적 근거 (Visual Evidence)에 의존했는지 여부를 나타내지 못합니다. 이러한 격차는 자율 주행 (Autonomous Driving)에 사용되는 다중 뷰 (Multi-view) 주행 장면에서 특히 중요한데, 모델이 잘못된 카메라 뷰에 근거를 두면서도 그럴듯한 답변을 생성할 수 있기 때문입니다. 우리는 근거 출처 식별 (Evidence-source Identification)을 평가하기 위한 다중 뷰 시각적 질의응답 (Multi-view Visual Question Answering) 벤치마크를 소개합니다. 6개의 동기화된 NuScenes 뷰와 질문이 주어지면, 모델은 이를 뒷받침하는 카메라 뷰를 식별하고 질문에 답해야 합니다. 이 벤치마크는 인과 관계 (Causality), 반사실적 추론 (Counterfactual Reasoning), 의도 예측 (Intent Prediction)을 아우르는 73개 장면에서 추출한 122개의 충돌 중심 (Conflict-centric) 질의응답 쌍을 포함합니다. 뷰 레이블 (View labels)은 자동 충돌 마이닝 파이프라인 (Automatic conflict-mining pipeline)에 의해 제안되었으며, 어노테이터 (Annotators)에 의해 수동으로 검증되었습니다. 우리는 세 가지 설정에 대해 평가를 수행합니다: 카메라 뷰 선택 (Camera-view selection), 정답 뷰가 주어졌을 때의 오라클 질의응답 (Oracle QA given the golden view), 그리고 모델이 한 번의 패스 (Pass)로 뷰를 선택하고 답변하는 공동 예측 (Joint prediction)입니다. 답변은 객관식 및 자유 형식 (Free-form) 형식 모두로 평가되며, 구조화된 예측에는 완전 일치 (Exact match)를 사용하고 자유 형식 응답에는 LLM 판사 (LLM judge)를 사용합니다. 시각적 출처 식별을 답변의 정확성과 명시적으로 분리함으로써, 이 벤치마크는 답변 중심의 평가가 놓치는 근거 설정 실패 (Grounding failures)를 드러냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

답변은 어디에서 오는가? 자율 주행을 위한 다중 뷰 MLLM의 뷰 레벨 시각적 근거 식별 벤치마킹

요약

핵심 포인트

댓글