본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 29. 12:54

작지만 신뢰할 수 있는: 시계열 이상 탐지를 위한 효율적인 시각-언어 추론 (Efficient Vision-Language Reasoning

요약

시계열 데이터의 이상 탐지를 위해 시각-언어 모델(VLM)을 활용하는 새로운 연구를 소개합니다. 고품질 설명 데이터셋인 VisAnomBench를 구축하고, 이를 통해 매개변수 효율적인 모델인 VisAnomReasoner를 개발하여 기존 모델 대비 성능을 크게 향상시켰습니다.

핵심 포인트

  • 시계열 이상 탐지를 위한 새로운 벤치마크 VisAnomBench 구축
  • 자연어 근거를 활용한 해석 가능한 이상 탐지 구현
  • 매개변수 효율적인 VLM인 VisAnomReasoner 개발
  • 기존 베이스라인 대비 정밀도 및 F1 점수의 대폭 향상
  • 교차 벤치마크 환경에서의 강력한 일반화 성능 입증

최근 시각-언어 모델 (Vision-Language Models (VLMs))의 발전은 많은 작업에서 인상적인 성능을 달고 성취하였으나, 기존 연구들은 시퀀스 데이터 (sequential data)에서 비정상 패턴을 찾는 데 대규모 언어 모델 (Large Language Models (LLMs))이나 멀티모달 모델 (multimodal models)을 적용할 때 만족스럽지 못한 성능을 보고하고 있습니다. 공개된 이상 탐지 (anomaly detection) 벤치마크들은 일반적으로 구간 주석 (interval annotations)은 제공하지만 자연어 근거 (natural-language rationales)는 제공하지 않으며, 이로 인해 근거가 있고 해석 가능한 결정을 내리도록 VLM을 미세 조정 (fine-tune)하는 것이 어렵습니다. 이러한 격차를 해소하기 위해, 우리는 공개 시계열 데이터셋으로부터 구축되고, 세밀한 작업별 보상 (task-specific rewards)을 사용하여 여러 대규모 VLM으로부터 선택된 고품질의 이상 설명 (anomaly explanations)으로 증강된 큐레이션된 벤치마크인 VisAnomBench를 구축합니다. 이 벤치마크를 통한 미세 조정을 통해, 우리는 시계열 이상 탐지를 위한 매개변수 효율적인 (parameter-efficient) VLM인 VisAnomReasoner를 개발합니다. VisAnomBench에서의 실험 결과, VisAnomReasoner는 더 정확한 이상 위치 파악 (anomaly localization)을 달성하며 모든 베이스라인 (baselines)을 일관되게 능가하였고, 정밀도 (precision)와 F1 점수에서 각각 최소 21.23 및 23.87 퍼센트 포인트의 향상을 보였습니다. TSB-AD-U 벤치마크에 대한 추가 실험은 강력한 교차 벤치마크 일반화 (cross-benchmark generalization) 능력을 입증하며, VisAnomReasoner는 정밀도와 F1을 각각 9.57 및 13.39 퍼센트 포인트 향상시켰습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0