메타데이터 기반 다중 프롬프트 추론을 통한 제로샷 사고 이해
요약
본 논문은 감시 영상 속 사고를 '언제', '무엇을', '어디서'로 분해하는 3단계 파이프라인을 제안합니다. 비전-언어 유사성, 메타데이터 기반 다중 프롬프트 추론, 오픈 어휘 검출기를 활용하여 충격 발생 시점을 정확히 식별하고 사고 유형과 공간적 위치를 국소화했습니다.
핵심 포인트
- 사고 이해 과정을 시간/의미/공간 3단계로 분해하는 파이프라인 제시
- 메타데이터 기반 다중 프롬프트 추론을 통해 불일치 해결 및 정확도 향상
- 오픈 어휘 검출기로 충격 발생 위치를 국소화하고 결과를 집계함
- 제로샷 ACCIDENT @ CVPR 벤치마크에서 성능 개선 입증
본 논문에서는 감시 영상에서 발생하는 사고를 자연어(natural language)를 사용하여 언제, 어떤 유형의 충격이 발생했는지, 그리고 프레임의 어느 위치에서 발생했는지를 식별하는 문제를 다룹니다. 우리는 사고 이해 과정을 '언제(when)', '무엇을(what)', '어디서(where)'로 분해하는 3단계 파이프라인을 제안합니다. 첫 번째 단계에서는 비전-언어 유사성(vision-language similarity)을 사용하여 충격 주변의 짧은 시간적 창(temporal window)을 추출합니다. 두 번째 단계에서는 다섯 가지 보완적인 시점(baseline, motion, geometry, contrast, 그리고 tiebreaker)을 가진 메타데이터 기반 다중 프롬프트 추론(metadata-driven multi-prompt reasoning)을 수행하고, 엔트로피 게이팅 쌍별 판정기(entropy-gated pairwise adjudicator)를 통해 불일치를 해결합니다. 마지막으로, 예측된 사고 유형과 장면 레이아웃에 대해 질의하는 오픈 어휘 검출기(open-vocabulary detector)로 충격을 국소화하고, 점수 가중 중심점(score-weighted centroid)을 사용하여 키프레임 전반에 걸쳐 탐지 결과를 집계합니다. 우리의 파이프라인은 제로샷 ACCIDENT @ CVPR 벤치마크에서 센터 오브 프레임(centre-of-frame) 기준선 대비 조화 평균 점수(harmonic-mean score)의 상당한 개선을 달성했습니다. 우리는 제로샷 비디오 이해를 시간적 국소화, 의미론적 분류, 공간적 접지(spatial grounding)로 분해하는 것이 단순 프롬프팅만 사용하는 것보다 비전-언어 모델에서 더 신뢰할 수 있는 추론을 가능하게 함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기