PaSBench-Video: 선제적 안전 경고를 위한 스트리밍 비디오 벤치마크
요약
멀티모달 거대 언어 모델(MLLM)의 실시간 안전 모니터링 능력을 평가하기 위한 새로운 벤치마크 PaSBench-Video를 제안합니다. 기존 정적 방식의 한계를 넘어 운전, 의료 등 4개 영역의 스트리밍 비디오를 통해 모델의 선제적 경고 능력을 정밀하게 측정합니다.
핵심 포인트
- PaSBench-Video: 740개의 영상으로 구성된 스트리밍 비디오 벤치마크
- 기존 MLLM은 엄격한 지표에서 20% 미만의 낮은 성능을 기록
- 높은 재현율이 높은 오탐률로 이어지는 성능 트레이드오프 확인
- 모델들이 인과적 추론보다 장면 수준의 단서에 의존하는 경향 발견
위험의 첫 번째 가시적 징후와 사고가 발생하는 순간 사이에는 종종 개입이 가능한 시간적 여유가 존재합니다. 비디오 처리 능력을 갖춘 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 이 시간 동안 경고를 발령하는 상시 안전 모니터 역할을 수행할 수 있습니다. 그러나 현재의 벤치마크들은 이러한 능력을 테스트하지 못하고 있습니다. 기존 방식들은 정적인 입력 (static inputs)에 의존하며, 타이밍의 정밀도 (timing precision)를 무시하고, 안전한 장면에서의 오탐 (false-positive) 측정을 누락합니다. 우리는 운전, 의료, 일상생활, 산업 생산의 네 가지 영역에 걸쳐 481개의 위험 영상과 259개의 비위험 영상 등 총 740개의 영상으로 구성된 벤치마크인 PaSBench-Video를 제시합니다. 위험 영상에는 프레임 단위의 위험 발생 시점과 사고 경계가 주석 (annotation) 처리되어 있습니다. 모델은 비디오를 인과적으로 관찰하여 시간적으로 보정되고 내용적으로 정확한 경고를 생성해야 합니다. 13개의 MLLM을 테스트한 결과, 가장 엄격한 지표에서 20.0%를 초과하는 모델은 없었으며, 재현율 (recall)은 오탐률 (false-positive rate)과 밀접하게 결합되어 피어슨 상관 계수 (Pearson correlation) 0.64를 기록했습니다. 즉, 더 높은 탐지율은 대부분의 안전한 클립에서 경고를 트리거하는 대가를 치러야만 가능했습니다. 성능은 도메인별로 극명하게 갈렸습니다. 모델들은 위험 요소가 본질적으로 이례적인 (anomalous) 일상생활 영역에서는 낮은 오탐률과 함께 중간 정도의 재현율을 달성했으나, 일상적인 장면과 위험한 장면이 유사하게 보이는 운전 영역에서는 무차별적으로 경고를 발령했습니다. 이러한 결과는 현재의 모델들이 발생 중인 위해 (emerging harm)에 대해 추론하기보다는 장면 수준의 활동 단서 (scene-level activity cues)에 의존하고 있음을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기