FastTab: 작은 재귀 모듈과 1D Transformer를 이용한 빠른 표 인식기
요약
FastTab은 경량 Tiny Recursive Module과 1D Transformer를 결합하여 표 구조를 빠르게 인식하는 모델입니다. 자기회귀적 디코딩 없이 그리드 중심으로 작동하여 낮은 지연 시간과 높은 성능을 동시에 달성했습니다.
핵심 포인트
- Tiny Recursive Module을 통한 전역적 추론 수행
- 1D Transformer로 행/열의 장거리 의존성 포착
- 낮은 추론 지연 시간과 경쟁력 있는 구조 복구 성능
- 픽셀 익명화 및 곡선형 구분자에 대한 강건성 입증
표 구조 인식 (Table structure recognition, TSR)은 표 수준의 일관성 (행/열 개수, 헤더, 병합된 셀)과 정밀한 구분자 위치 파악 (separator localization)을 모두 필요로 합니다. 본 논문에서는 (i) 전역적 추론 (global reasoning)을 위한 경량 Tiny Recursive Module (TRM)과 (ii) 행과 열을 따라 장거리 의존성 (long-range dependencies)을 포착하는 축 방향 1D Transformer 인코더를 결합하여, 자기회귀적 (autoregressive) HTML 디코딩을 피하는 그리드 중심의 TSR 모델인 FastTab을 소개합니다. 이 모델은 행/열 개수, 헤더 행, 구분자를 예측하여 그리드를 구축한 다음, ROI-aligned 셀 특징을 사용하여 행 병합 (rowspan) 및 열 병합 (colspan)을 추론합니다. 4개의 벤치마크 (PubTabNet, FinTabNet, PubTables-1M, SciTSR)에 걸쳐 FastTab은 낮은 추론 지연 시간 (low-latency inference)으로 작동하면서도 경쟁력 있는 구조 복구 성능을 달성합니다. 나아가 픽셀 수준의 익명화 (anonymisation) 하에서의 강건성 (robustness)을 연구하고, 카메라로 촬영된 문서의 곡선형 구분자 (curved separators)에 대한 확장성을 보여줍니다. 소스 코드는 https://github.com/hamdilaziz/FastTab 에 공개될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기