arXiv논문2026. 06. 23. 11:37

제로샷 절차적 실수 탐지(Zero-shot Procedural Mistake Detection)를 위한 VLM의 비합리적 유효성

요약

기존의 지도 학습 기반 절차적 실수 탐지 방식의 한계를 극복하기 위해, 단일 사전 학습된 VLM을 활용하는 ZeProM 프레임워크를 제안합니다. ZeProM은 제로샷 환경에서도 실수 탐지와 행동 분할을 동시에 수행하며, 기존 지도 학습 방식에 근접하거나 이를 능가하는 성능을 보여줍니다.

핵심 포인트

기존 다단계 파이프라인의 작업별 학습 한계 해결
단일 VLM을 통한 제로샷 절차적 실수 탐지 및 행동 분할 통합
EgoPER 및 CaptainCook4D 벤치마크에서 우수한 성능 입증
지도 학습 방식 대비 EDA 및 F1 점수 향상 달성

절차적 실수 탐지(Procedural mistake detection)는 많은 분야에서 품질 관리 및 사용자 지원을 위해 중요합니다. 이 분야의 최근 연구들은 지도 학습 기반의 시간적 행동 분할(temporal action segmentation), 오류 탐지(error detection), 그리고 설명 가능성(explainability)을 위한 별도의 모듈로 구성된 다단계 파이프라인 내에서 비디오-언어 모델(Video-Language Models, VLMs)의 추론 능력을 활용함으로써 상당한 성과를 거두었습니다. 결과적으로, 이러한 방식들은 맞춤형 학습 데이터셋에 의존하며 작업별 학습(task-specific training)을 요구하기 때문에 광범위한 적용성에 한계가 있습니다. 이를 해결하기 위해, 우리는 제로샷 절차적 실수 탐지(zero-shot procedural mistake detection)를 도입하고, 단일 사전 학습된 VLM을 통해 절차적 실수 탐지와 시간적 행동 분할을 공동으로 해결하는 통합된 ZeProM(Zero-shot Procedural Mistake detection) 프레임워크를 제안합니다. 두 가지 표준적인 실수 탐지 벤치마크인 EgoPER와 CaptainCook4D에서 우리 프레임워크를 평가한 결과, ZeProM이 이러한 작업들을 성공적으로 수행할 수 있으며, 완전 지도 학습(fully supervised) 방식의 성능에 근접하거나 심지어 능가할 수 있음을 확인했습니다. 예를 들어, 우리는 5개의 모든 EgoPER 작업에 대해 가장 강력한 지도 학습 방식과 비교했을 때 EDA에서 평균 4.4포인트, F1@.5에서 평균 2.0포인트의 향상을 달성했습니다. 전반적으로, 우리의 결과는 절차적 실수 탐지를 위한 통합 방법론의 잠재력을 보여주며, 이것이 해당 분야가 매우 복잡한 파이프라인에서 벗어나 보다 범용적으로 적용 가능한 솔루션으로 나아가는 계기가 되기를 바랍니다.

AI 자동 생성 콘텐츠

원문 바로가기

제로샷 절차적 실수 탐지(Zero-shot Procedural Mistake Detection)를 위한 VLM의 비합리적 유효성

요약

핵심 포인트

댓글