본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 11:48

텍스트 가이드 이상 탐지를 위한 구조화된 벤치마크: 언어가 의사결정에 영향을 미치지 못할 때

요약

멀티모달 시각-언어 모델의 이상 탐지 성능이 실제 텍스트 가이드에 의한 것인지 검증하기 위해 새로운 벤치마크인 TGAD를 제안합니다. 연구 결과, 현재 모델들은 텍스트 지시를 정확히 반영하지 못하고 시각적 특징에 의존하여 성능이 과장되어 있음을 밝혀냈습니다.

핵심 포인트

  • 텍스트 가이드 이상 탐지(TGAD) 벤치마크 제안
  • 기존 모델들이 텍스트 지시사항을 무시하고 시각 특징에 의존함을 증명
  • 프롬프트 민감도 및 컴포넌트 태그 기반의 엄격한 평가 필요성 강조
  • 산업 현장 배포를 위한 신뢰할 수 있는 언어 제어 모델 연구의 중요성

산업용 이상 탐지 (Industrial anomaly detection)는 역사적으로 단일 모달 (unimodal) 작업이었습니다. 최근의 멀티모달 시각-언어 모델 (multimodal vision-language models)은 이미지와 함께 텍스트 입력을 허용하는 시스템을 만들어냈으며, 이는 텍스트 가이드 기반의 제로샷 (zero-shot) 및 퓨샷 (few-shot) 검사를 가능하게 하는 것으로 제시되고 있습니다. 그러나 이러한 방법들은 텍스트 조건 (textual condition)을 일정하게 유지하는 단일 모달 벤치마크에서 물려받은 프로토콜로 평가되며, 따라서 언어가 의사결정에 조건을 부여하는지 여부를 측정할 수 없습니다. 즉, 보고된 성능 향상이 텍스트 가이드 (text guidance)를 반영하는지, 아니면 강력한 사전 학습된 시각적 특징 (pretrained visual features)을 반영하는지는 여전히 미해결 과제로 남아 있습니다.

우리는 세 가지 시나리오에 걸쳐 언어의 기능적 역할을 점진적으로 증가시키는 구조화된 벤치마크인 텍스트 가이드 이상 탐지 (Text-Guided Anomaly Detection, TGAD)를 소개합니다. 세 가지 시나리오는 다음과 같습니다: MVTec AD에서의 통제된 프롬프트 민감도 (prompt-sensitivity) 설정, 모델이 지시된 부분으로 평가를 제한하도록 요구하는 MVTec AD의 컴포넌트 태그 확장 (component-tagged extension), 그리고 결함 유형 (defect-type)과 부품 위치 (component-location) 지식을 모두 요구하는 현실적인 산업 환경인 새로운 조립 패널 데이터셋 (Assembled Panel Dataset, APD)입니다.

우리는 각 패러다임당 하나의 대표 모델을 평가합니다: 생성형 거대 시각-언어 모델 (generative large vision-language), 훈련이 필요 없는 판별 모델 (training-free discriminative), 그리고 임베딩 적응형 판별 모델 (embedding-adaptive discriminative)입니다. 세 가지 경우 모두에서 텍스트 인터페이스는 표면적으로만 의사결정에 영향을 미칩니다. 객체 명사 (object noun)를 제거하지 않는 한 프롬프트 내용이 흡수되어 버리며 (생성 모델의 I-AUROC가 97.4에서 82.6으로 하락), 지시된 부분 이외의 결함이 정상으로 수용되면 컴포넌트 수준의 지시가 의사결정을 제한하지 못합니다 (90.3에서 66.3으로 하락). 또한 APD에서 이 두 가지가 결합될 때, 이미지 수준의 판별력은 MVTec 수준 미만으로 붕괴하며, 한 사례에서는 확률 미만으로 떨어집니다 (71.2, 50.5, 31.5). 이러한 결과는 표준 벤치마크가 현재의 멀티모달 이상 탐지 시스템의 텍스트 가이드 능력을 과장하고 있음을 시사하며, 산업 현장 배포를 위해 언어를 통해 신뢰성 있게 제어할 수 있는 모델을 만들기 위해서는 이러한 종류의 프로토콜이 필수 전제 조건임을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0