Vision Transformer를 이용한 세밀한 차량 분류를 위한 오픈 소스 2단계 컴퓨터 비전 파이프라인
요약
RT-DETR과 Vision Transformer를 결합하여 차량의 차체 유형을 세밀하게 분류하는 2단계 오픈 소스 파이프라인을 제안합니다. 신뢰도 기반 기권 메커니즘을 통해 오분류를 방지하며, 실제 도로 환경의 도메인 변화에도 높은 견고성을 입증했습니다.
핵심 포인트
- RT-DETR과 ViT를 결합한 2단계 컴퓨터 비전 파이프라인 제안
- 신뢰도 기반 기권 메커니즘으로 오분류 대신 '알 수 없음' 라벨 생성
- 실제 도로 영상 데이터셋에서 0.94의 높은 정확도 달성
- 도메인 변화(OOD) 상황에서도 안정적인 성능 및 불확실성 전파 확인
- 연구 재현성을 위해 전체 파이프라인 및 가중치 오픈 소스 공개
차량의 차체 유형(Vehicle body type)은 추월 사고 시 자전거 이용자의 부상 심각도를 결정하는 중요한 요인이지만, 자연스러운 도로 영상으로부터 부상 위험과 관련된 범주로 차량을 분류하는 자동화된 도구는 공개된 문헌에 존재하지 않습니다. 표준 객체 탐지(Object detection) 벤치마크는 거친 수준의 차량 라벨(승용차, 트럭, 버스, 오토바이)만을 제공하는 반면, 기존의 세밀한 인식(Fine-grained recognition) 시스템은 통제된 이미지로 학습되어 녹화 장소에 따른 배포 견고성(Deployment robustness)에 대한 평가가 부족합니다. 본 논문은 거친 수준의 차량 위치 파악을 위한 사전 학습된 RT-DETR 탐지기와 승용차(Passenger car), SUV, 픽업트럭(Pickup truck), 미니밴(Minivan), 대형 밴(Large van), 상용 트럭(Commercial truck)의 6개 범주 차체 유형 분류를 위한 미세 조정된 Vision Transformer (ViT-Base/16)를 결합한 오픈 소스 2단계 컴퓨터 비전 파이프라인을 제시합니다. 신뢰도 기반 기권 메커니즘(Confidence-based abstention mechanism)은 소프트맥스(Softmax) 출력이 0.60 미만일 때 2단계 예측을 보류하여, 조용한 오분류(Silent misclassifications) 대신 '알 수 없음(Unknown)' 라벨을 생성합니다. 미시간주 앤아버(Ann Arbor, Michigan)의 자전거 도로 구간에서 수집된 3,805개의 주석 처리된 추월 이벤트(In-distribution)를 통해 평가한 결과, 이 파이프라인은 0.94의 정확도(Accuracy)를 달성하였으며 클래스별 F1 점수는 0.91(미니밴)에서 0.97(SUV) 사이였습니다. 재학습 없이 공개 자전거 데이터셋의 311개 이벤트에 대해 독립적인 분포 외(Out-of-distribution) 평가를 수행했을 때, 정확도는 0.89였습니다. 잘 표현된 4개 범주 중 3개는 도메인 변화(Domain shift) 상황에서도 0.90 이상의 F1 점수를 유지했습니다. 가장 큰 성능 저하는 미니밴(F1 = 0.72)에서 관찰되었는데, 이는 능동적인 오분류보다는 기권율(Abstention rate)이 2.4%에서 25.0%로 상승했기 때문이며, 이는 모델의 실제 불확실성(Uncertainty)을 전파하는 메커니즘과 일치합니다. 추론 스크립트, 학습 코드, 평가 유틸리티 및 모델 가중치를 포함한 전체 파이프라인은 도로변 영상 아카이브 및 자전거 안전 연구 전반의 재현성과 재사용을 지원하기 위해 오픈 소스 소프트웨어로 공개됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기