처리 과정에서의 시간적 보존: 시공간 단일 단계 비디오 검출기의 진단 및 설계

단일 단계(Single-stage) 비디오 객체 검출기(video object detectors)는 시간이 중요한 애플리케이션에 점점 더 많이 배치되고 있지만, 이러한 모델들이 진정으로 시간적 문맥(temporal context)을 통해 추론하는지, 아니면 단순히 정보가 풍부한 단일 프레임을 이용하는지는 여전히 불분명합니다. 이는 예측 방식에 상관없이 정답 여부에만 보상을 주는 표준 지표들에 의해 숨겨진 격차입니다. 우리는 두 가지 상호 보완적인 방향에서 이 문제를 다룹니다. 첫째, 우리는 제어된 섭동(perturbations), 구조적 폐쇄(structured occlusions), 시간적 셔플링(temporal shuffling), 중복 주입(redundancy injection), 그리고 해상도 저하(resolution degradation)를 통해 시간적 의존성을 조사하는 모델 불가지론적(model-agnostic) 진단 프레임워크인 TemporalLens를 제안하며, 이를 통해 검출기가 실제로 시간에 걸친 정보를 사용하는지 밝혀냅니다. 스택 프레임(stacked-frame) 2D 검출기와 우리의 YOLO-3D 아키텍처에 적용한 결과, mAP로는 보이지 않는 행동 차이를 드러냈습니다. 스택된 2D 모델은 대상 프레임이 제거되면 성능이 무너지지만, 시공간(spatiotemporal) 모델은 이전 프레임으로부터 예측을 복구하며, 이는 실제 시간적 의존성의 특징입니다. 둘째, 우리는 YOLOv8을 기반으로 구축된 모듈형 실시간 시공간 검출기인 YOLO-3D를 상세히 설명하며, 백본(backbone)을 통해 시간적 깊이(temporal depth)를 단순히 보존하는 것이 지배적인 성능 동인임을 보여줍니다 (32개 프레임 평균, 모든 스케일에 걸쳐 mAP@50 기준 +3.7 pp). 이러한 진단과 아키텍처를 통해 "이 검출기가 시간에 따라 추론하는가?"라는 질문을 측정 가능하고 실행 가능한 질문으로 전환합니다.

Insights

처리 과정에서의 시간적 보존: 시공간 단일 단계 비디오 검출기의 진단 및 설계

요약

핵심 포인트

댓글

Evo-PI: 진화하는 원칙 기반 감독을 통한 의료 추론 정렬

RAISE: 강건한 적대적 인스턴스 탐색을 통한 LLM 기반 자동 휴리스틱 설계

대규모 데이터베이스에는 작고 오픈 웨이트(Open-Weight)인 언어 모델이 필요하다

RLVR에서의 저차원 적응(LoRA)을 위한 기하학적 보존 직교 초기화

Evo-PI: 진화하는 원칙 기반 감독을 통한 의료 추론 정렬

RAISE: 강건한 적대적 인스턴스 탐색을 통한 LLM 기반 자동 휴리스틱 설계

대규모 데이터베이스에는 작고 오픈 웨이트(Open-Weight)인 언어 모델이 필요하다

RLVR에서의 저차원 적응(LoRA)을 위한 기하학적 보존 직교 초기화