MMVIAD: 산업 이상 감지를 위한 다중 시점 다중 작업 비디오 이해
요약
본 기사는 산업 이상 감지(Industrial anomaly detection) 분야의 한계를 극복하기 위해 개발된 새로운 벤치마크 데이터셋 MMVIAD를 소개합니다. MMVIAD는 약 120도의 카메라 움직임을 가진 객체 중심의 연속 다중 시점 비디오 클립으로 구성되어, 실제 산업 검사 과정을 현실적으로 반영했습니다. 이 데이터셋은 이상 감지 및 결함 탐지 등 다양한 작업을 지원하며, 이를 활용한 모델(VISTA)이 기존 최고 성능을 능가하는 결과를 보여주었습니다.
핵심 포인트
- MMVIAD는 산업 이상 감지를 위한 최초의 연속 다중 시점 비디오 데이터셋이자 벤치마크입니다.
- 데이터셋은 약 120도의 카메라 움직임을 가진 객체 중심의 2초 검사 클립으로 구성되어 실제 산업 환경을 모사합니다.
- MMVIAD는 이상 감지, 결함 탐지 등 다양한 다중 작업을 지원하는 평가 플랫폼을 제공합니다.
- 새로운 모델(VISTA)은 MMVIAD-Unseen에서 기존 최고 성능을 능가하는 높은 점수를 달성했습니다.
산업 이상 감지(Industrial anomaly detection)는 제조 품질 관리에서 매우 중요하지만, 기존 데이터셋들은 주로 정적 이미지나 희소한 뷰에 초점을 맞추고 있어 실제 산업 시나리오의 연속적인 검사 과정을 완전히 반영하지 못합니다. 저희는 산업 이상 감지를 위한 최초의 연속 다중 시점 비디오 데이터셋이자 다중 작업 평가를 위한 벤치마크인 MMVIAD (Multi-view Multi-task Video Industrial Anomaly Detection)를 소개합니다. MMVIAD는 약 120도의 카메라 움직임을 가진 객체 중심의 2초 검사 클립으로 구성되어 있으며, 48개 객체 카테고리, 14개 환경, 그리고 6가지 구조적 이상 유형을 다룹니다. 이는 이상 감지(anomaly detection), 결함(defect) 등의 작업을 지원합니다.
MMVIAD-Unseen에서 VISTA는 기본 모델의 네 가지 작업 평균 점수를 45.0점에서 57.5점으로 향상시켜 GPT-5.4를 능가합니다. 소스 코드는 https://github.com/Georgekeepmoving/MMVIAD에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기