본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:56

문서 파서(Document Parsers)는 어떻게 고장 나는가? 문서 지능(Document Intelligence)의 구조적 취약성 감사

요약

본 논문은 RAG 및 문서 질의응답 시스템의 기반이 되는 문서 레이아웃 분석(DLA) 파이프라인의 구조적 취약성을 평가하기 위한 새로운 감사 프레임워크를 제안합니다. 기존의 영역 중심적 평가 방식에서 벗어나, 블록 수준 구조 손실률(B-SLR)과 구조 인식 진단을 통해 섭동이 레이아웃 구조와 상호작용하며 실패를 전파하는 방식을 정밀하게 분석합니다.

핵심 포인트

  • 기존 DLA 강건성 평가의 영역 중심적(Area-centric) 편향 문제를 식별하고 이를 해결하기 위한 경량 감사 프레임워크 제안
  • 블록 수준 구조 손실률(B-SLR)이 OCR 불안정성보다 레이아웃 구조적 실패를 훨씬 더 정확하게 예측함(R^2=0.727/0.916)
  • 입도 인식 노출 기술자를 통해 폐쇄(Occlusion) 및 위상(Topology) 지배적 경로를 세분화하여 분석 가능
  • 구조적으로 타겟팅된 작은 탐침(Probe)이 대규모 섭동과 유사한 수준의 QA 및 검색 성능 저하를 유발할 수 있음을 증명

문서 레이아웃 분석 (Document Layout Analysis, DLA) 파이프라인은 검색 증강 생성 (Retrieval-Augmented Generation, RAG), 긴 문서 질의응답 (Long-document Question Answering), 그리고 기타 문서 지능 (Document Intelligence) 시스템을 위한 구조화된 페이지 표현을 제공하지만, 이들의 강건성 (Robustness) 평가는 여전히 주로 영역 중심적 (Area-centric)입니다. 우리는 이러한 발자국 편향 (Footprint Bias)을 식별하고, 탐침 구축 (Probe construction), 정책 기반 타겟팅 (Policy-driven targeting), 그리고 구조 인식 진단 (Structure-aware diagnosis)을 분리하는 경량 출력 수준 감사 프레임워크를 제안합니다. 이 프레임워크는 블록 수준 구조 손실률 (Block-level Structural Loss Rate, B-SLR), 입도 인식 노출 기술자 (Granularity-aware exposure descriptors), 그리고 경로 귀속 (Pathway attribution)을 결합하여, 섭동 (Perturbations)이 레이아웃 구조와 어디에서 상호작용하는지, 그리고 실패가 어떻게 전파되는지를 분석합니다. 1,000페이지에 걸쳐 MinerU 및 PP-StructureV3를 대상으로 실험한 결과, 영향을 받은 영역은 섭동으로 유발된 OCR 불안정성을 약하게 추적하는 반면 (R^2=0.384/0.110), B-SLR은 이와 훨씬 더 밀접하게 일치했습니다 (R^2=0.727/0.916). 노출 기술자는 폐쇄 (Occlusion) 및 위상 (Topology) 지배적 경로를 더욱 세분화하며, 구조적으로 타겟팅된 작은 탐침들은 더 큰 발자국을 가진 섭동과 유사한 하위 QA/검색 저하를 일으킵니다. 이러한 결과는 DLA 강건성 평가를 발자국 기반의 스트레스 테스트에서 구조 인식 취약성 감사로 전환시킵니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0