처리 과정에서의 시간적 보존: 시공간 단일 단계 비디오 검출기의 진단 및 설계
요약
단일 단계 비디오 객체 검출기가 실제 시간적 문맥을 활용하는지 진단하는 TemporalLens 프레임워크와 시공간 정보를 보존하는 YOLO-3D 아키텍처를 제안합니다. 실험을 통해 모델이 단순히 프레임 정보를 이용하는지, 아니면 시간적 의존성을 통해 추론하는지를 정량적으로 분석합니다.
핵심 포인트
- TemporalLens를 통한 모델 불가지론적 시간적 의존성 진단 프레임워크 제안
- mAP 지표가 놓치는 모델의 실제 시간적 추론 능력 차이 규명
- YOLOv8 기반의 실시간 시공간 검출기 YOLO-3D 설계
- 백본을 통한 시간적 깊이 보존이 성능 향상의 핵심 동인임을 입증
단일 단계(Single-stage) 비디오 객체 검출기(video object detectors)는 시간이 중요한 애플리케이션에 점점 더 많이 배치되고 있지만, 이러한 모델들이 진정으로 시간적 문맥(temporal context)을 통해 추론하는지, 아니면 단순히 정보가 풍부한 단일 프레임을 이용하는지는 여전히 불분명합니다. 이는 예측 방식에 상관없이 정답 여부에만 보상을 주는 표준 지표들에 의해 숨겨진 격차입니다. 우리는 두 가지 상호 보완적인 방향에서 이 문제를 다룹니다. 첫째, 우리는 제어된 섭동(perturbations), 구조적 폐쇄(structured occlusions), 시간적 셔플링(temporal shuffling), 중복 주입(redundancy injection), 그리고 해상도 저하(resolution degradation)를 통해 시간적 의존성을 조사하는 모델 불가지론적(model-agnostic) 진단 프레임워크인 TemporalLens를 제안하며, 이를 통해 검출기가 실제로 시간에 걸친 정보를 사용하는지 밝혀냅니다. 스택 프레임(stacked-frame) 2D 검출기와 우리의 YOLO-3D 아키텍처에 적용한 결과, mAP로는 보이지 않는 행동 차이를 드러냈습니다. 스택된 2D 모델은 대상 프레임이 제거되면 성능이 무너지지만, 시공간(spatiotemporal) 모델은 이전 프레임으로부터 예측을 복구하며, 이는 실제 시간적 의존성의 특징입니다. 둘째, 우리는 YOLOv8을 기반으로 구축된 모듈형 실시간 시공간 검출기인 YOLO-3D를 상세히 설명하며, 백본(backbone)을 통해 시간적 깊이(temporal depth)를 단순히 보존하는 것이 지배적인 성능 동인임을 보여줍니다 (32개 프레임 평균, 모든 스케일에 걸쳐 mAP@50 기준 +3.7 pp). 이러한 진단과 아키텍처를 통해 "이 검출기가 시간에 따라 추론하는가?"라는 질문을 측정 가능하고 실행 가능한 질문으로 전환합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기