본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 25. 11:56

임베딩 전 엣지 탐지: 시각-언어 파이프라인을 위한 신뢰도 인식 블러 게이트 (Confidence-Aware Blur Gate)

요약

시각-언어 모델(VLM)의 컴퓨팅 자원 낭비를 방지하기 위해, 입력 이미지의 선명도를 빠르게 판별하는 가벼운 CPU 친화적 게이트인 MagikaDocumentFromPixel을 제안합니다. Edge Prior Module을 통해 블러 여부를 정확히 탐지하며, 낮은 지연 시간으로 효율적인 시각 파이프라인 구축을 가능하게 합니다.

핵심 포인트

  • 흐릿한 이미지로 인한 VLM 및 OCR의 자원 낭비 방지
  • 단일 CPU 코어에서 7ms 내외의 매우 빠른 처리 속도
  • Edge Prior Module을 통한 블러 탐지 성능(F1) 향상
  • 17MB의 가벼운 ONNX 모델로 높은 효율성 제공

실제 운영되는 시각 파이프라인(vision pipelines)은 흐릿한(blurry) 입력값에 대해 조용히 성능이 저하되며, 사용 가능한 출력을 복구할 수 없는 다운스트림 OCR, 검색(retrieval), 그리고 시각-언어 모델(VLM) 호출에 컴퓨팅 자원을 낭비합니다. 우리는 단일 CPU 코어에서 약 7ms 내에 단일 이미지를 선명함(sharp), 흐릿함(blurred), 또는 불확실함(uncertain)으로 분류하는 가볍고 CPU 친화적인 이미지 품질 게이트인 MagikaDocumentFromPixel을 제시합니다. 주요 기여는 다음과 같습니다: (i) 46가지 구성과 8회 스윕(8-sweep)의 경험적 탐색을 통해 선정된 레시피로, 입력 해상도가 지배적인 레버(lever)임을 격리하고 아키텍처 용량은 384px 이상에서만 효과가 있음을 보여줍니다; (ii) 고전적인 선택적 예측(selective prediction)에 기반한 신뢰도 인식 라우팅 형식(confidence-aware routing formalism); (iii) Laplacian-magnitude 보조 입력 채널인 엣지 우선 모듈(Edge Prior Module, EPM)로, 이는 네트워크가 고전적인 블러 휴리스틱(blur heuristics)이 의존하는 스펙트럼 증거(spectral evidence)에 직접 접근할 수 있게 하여 동일 환경 비교 시 테스트 F1 점수를 +1.3포인트 향상시킵니다; (iv) 이 게이트가 Magika 콘텐츠 유형 탐지, VLM을 이용한 리스크 제어 OCR, 그리고 DocVLM에서 독립적으로 나타나는 반복적인 디자인 패턴의 한 사례라는 관찰입니다. 최종 레시피는 GoPro Large 프레임 쌍을 사용하여 384x384에서 훈련된 EPM 기반의 MobileNetV3-Large이며, 5단계 테스트 시간 증강(test-time augmentation)으로 평가했을 때 17MB ONNX 아티팩트로 F1 = 0.9803 (AUC 0.9989)에 도달하였고, 동일 하드웨어에서의 고정 스케일 베이스라인(F1 = 0.9672)보다 +1.31포인트 향상되었습니다. 우리는 한계점을 명확히 밝힙니다: 결과는 단일 모션 블러(motion-blur) 분포에 대한 것이며, 수치는 단일 시드(seed)로부터 도출되었고, 캘리브레이션(calibration)은 측정된 것이 아닌 질적(qualitative)인 수준입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0