문서 파서(Document Parsers)는 어떻게 고장 나는가? 문서 지능(Document Intelligence)의 구조적 취약성 감사

문서 레이아웃 분석 (Document Layout Analysis, DLA) 파이프라인은 검색 증강 생성 (Retrieval-Augmented Generation, RAG), 긴 문서 질의응답 (Long-document Question Answering), 그리고 기타 문서 지능 (Document Intelligence) 시스템을 위한 구조화된 페이지 표현을 제공하지만, 이들의 강건성 (Robustness) 평가는 여전히 주로 영역 중심적 (Area-centric)입니다. 우리는 이러한 발자국 편향 (Footprint Bias)을 식별하고, 탐침 구축 (Probe construction), 정책 기반 타겟팅 (Policy-driven targeting), 그리고 구조 인식 진단 (Structure-aware diagnosis)을 분리하는 경량 출력 수준 감사 프레임워크를 제안합니다. 이 프레임워크는 블록 수준 구조 손실률 (Block-level Structural Loss Rate, B-SLR), 입도 인식 노출 기술자 (Granularity-aware exposure descriptors), 그리고 경로 귀속 (Pathway attribution)을 결합하여, 섭동 (Perturbations)이 레이아웃 구조와 어디에서 상호작용하는지, 그리고 실패가 어떻게 전파되는지를 분석합니다. 1,000페이지에 걸쳐 MinerU 및 PP-StructureV3를 대상으로 실험한 결과, 영향을 받은 영역은 섭동으로 유발된 OCR 불안정성을 약하게 추적하는 반면 (R^2=0.384/0.110), B-SLR은 이와 훨씬 더 밀접하게 일치했습니다 (R^2=0.727/0.916). 노출 기술자는 폐쇄 (Occlusion) 및 위상 (Topology) 지배적 경로를 더욱 세분화하며, 구조적으로 타겟팅된 작은 탐침들은 더 큰 발자국을 가진 섭동과 유사한 하위 QA/검색 저하를 일으킵니다. 이러한 결과는 DLA 강건성 평가를 발자국 기반의 스트레스 테스트에서 구조 인식 취약성 감사로 전환시킵니다.

Insights

문서 파서(Document Parsers)는 어떻게 고장 나는가? 문서 지능(Document Intelligence)의 구조적 취약성 감사

요약

핵심 포인트

댓글

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어