arXiv논문2026. 06. 11. 17:33

메타데이터 기반 다중 프롬프트 추론을 통한 제로샷 사고 이해

요약

본 논문은 감시 영상 속 사고를 '언제', '무엇을', '어디서'로 분해하는 3단계 파이프라인을 제안합니다. 비전-언어 유사성, 메타데이터 기반 다중 프롬프트 추론, 오픈 어휘 검출기를 활용하여 충격 발생 시점을 정확히 식별하고 사고 유형과 공간적 위치를 국소화했습니다.

핵심 포인트

사고 이해 과정을 시간/의미/공간 3단계로 분해하는 파이프라인 제시
메타데이터 기반 다중 프롬프트 추론을 통해 불일치 해결 및 정확도 향상
오픈 어휘 검출기로 충격 발생 위치를 국소화하고 결과를 집계함
제로샷 ACCIDENT @ CVPR 벤치마크에서 성능 개선 입증

본 논문에서는 감시 영상에서 발생하는 사고를 자연어(natural language)를 사용하여 언제, 어떤 유형의 충격이 발생했는지, 그리고 프레임의 어느 위치에서 발생했는지를 식별하는 문제를 다룹니다. 우리는 사고 이해 과정을 '언제(when)', '무엇을(what)', '어디서(where)'로 분해하는 3단계 파이프라인을 제안합니다. 첫 번째 단계에서는 비전-언어 유사성(vision-language similarity)을 사용하여 충격 주변의 짧은 시간적 창(temporal window)을 추출합니다. 두 번째 단계에서는 다섯 가지 보완적인 시점(baseline, motion, geometry, contrast, 그리고 tiebreaker)을 가진 메타데이터 기반 다중 프롬프트 추론(metadata-driven multi-prompt reasoning)을 수행하고, 엔트로피 게이팅 쌍별 판정기(entropy-gated pairwise adjudicator)를 통해 불일치를 해결합니다. 마지막으로, 예측된 사고 유형과 장면 레이아웃에 대해 질의하는 오픈 어휘 검출기(open-vocabulary detector)로 충격을 국소화하고, 점수 가중 중심점(score-weighted centroid)을 사용하여 키프레임 전반에 걸쳐 탐지 결과를 집계합니다. 우리의 파이프라인은 제로샷 ACCIDENT @ CVPR 벤치마크에서 센터 오브 프레임(centre-of-frame) 기준선 대비 조화 평균 점수(harmonic-mean score)의 상당한 개선을 달성했습니다. 우리는 제로샷 비디오 이해를 시간적 국소화, 의미론적 분류, 공간적 접지(spatial grounding)로 분해하는 것이 단순 프롬프팅만 사용하는 것보다 비전-언어 모델에서 더 신뢰할 수 있는 추론을 가능하게 함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

메타데이터 기반 다중 프롬프트 추론을 통한 제로샷 사고 이해

요약

핵심 포인트

댓글