복잡한 문서 레이아웃을 위한 읽기 순서 추론 (Reading Order Inference)
요약
복잡한 역사적 필사본의 레이아웃에서 올바른 읽기 순서를 추론하기 위한 훈련이 필요 없는(training-free) 그래프 기반 프레임워크를 제안합니다. 경량 언어 모델 신호와 최대 후회 추론 규칙을 활용하여 기존 XY-cut이나 LayoutReader 방식보다 높은 정확도를 달성했습니다.
핵심 포인트
- 훈련이 필요 없는 그래프 기반 읽기 순서 추론 프레임워크 제안
- LLM 조건부 가능도와 BERT NSP를 활용한 에지 점수 산출
- 에지 탈취 실패를 방지하는 최대 후회 추론 규칙 도입
- 복잡한 Glossa 레이아웃 및 OmniDocBench에서 우수한 성능 입증
- 페이지 반전 시에도 높은 거울 불변성(mirror-invariance) 유지
읽기 순서 추론 (Reading order inference)은 복잡한 역사적 필사본의 디지털화 과정에서 여전히 중요한 병목 현상으로 남아 있습니다. 이러한 필사본의 페이지들은 공간적으로 서로 얽혀 있는 여러 읽기 흐름을 포함하고 있는데, 대표적인 예로 Glossa Ordinaria 레이아웃을 들 수 있습니다. 이 레이아웃에서는 중앙 텍스트를 중심으로 비직사각형(non-rectangular) 및 비볼록(non-convex) 영역에 주석들이 둘러싸고 있습니다. 본 논문에서는 훈련이 필요 없는(training-free) 그래프 기반 프레임워크를 제시합니다. 각 OCR 텍스트 라인은 유향 후보 전이 그래프 (directed candidate-transition graph)의 노드가 되며, 에지(edge)는 두 가지 경량 언어 모델 신호(인과적 언어 모델 조건부 가능도 (causal language model conditional likelihood) 및 BERT 다음 문장 예측 (NSP; BERT next-sentence prediction))의 가중치 합산 앙상블에 의해 점수가 매겨집니다 (세 번째 문장 임베딩 신호도 평가되었으나 읽기 순서를 개선하지는 못했습니다). 그리고 전역 읽기 순서는 차수 제한 유향 경로 커버 (degree-constrained directed path cover)로서 복구됩니다. 탐욕적 에지 선택 (greedy edge selection)에서 발생하는 연쇄적인 "에지 탈취 (edge-theft)" 실패를 방지하기 위해, 우리는 기회비용이 높은 확약을 우선시하는 최대 후회 추론 규칙 (max-regret inference rule)을 제안합니다. 우리는 합성된 Glossa Ordinaria 그리드 레이아웃, 23개의 ALTO 페이지 기하학적 구조(10개의 역사적 소스 페이지 및 대칭 및 반전 변형 포함), 그리고 OmniDocBench의 140페이지 다중 열 영어 하위 집합에서 평가를 수행하였으며, 동일한 입력에 대해 우리의 방법을 표준적인 재귀적 XY-cut (PaddleOCR PP-StructureV3) 및 두 가지 LayoutReader 변형(레이아웃 전용 및 텍스트+레이아웃)과 비교하였습니다. 둘러싸기 형태의 Glossa 레이아웃에서 우리 방법은 XY-cut의 50% 대비 평균 95%의 정답 후속 에지 (ground-truth successor edges)를 복구했습니다. OmniDocBench 다중 열 하위 집합에서는 XY-cut의 75% 및 LayoutReader의 25% 대비 88%의 매크로 에지 정확도 (macro edge accuracy)를 달성했습니다. LayoutReader 베이스라인은 단어 수준과 라인 수준의 입도(granularity) 불일치로 인해 전이 성능이 저조했습니다. 추가적으로 우리는 수평 및 수직 페이지 반전 하에서의 거울 불변성 (mirror-invariance)을 검증했습니다. 우리 방법은 1%포인트 미만으로 변화한 반면, 고전적인 XY-cut은 2%포인트, LayoutReader-T는 최대 8%포인트까지 변화했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기