arXiv논문2026. 06. 17. 11:22

순서 독립적 셀 수준 표현을 통한 자기회귀적 멀티태스크 테이블 인식에서의 구조적 의존성 재고

요약

멀티태스크 테이블 인식에서 발생하는 셀 표현의 순서 의존성 문제를 해결하기 위해 순서 독립적 셀 수준 표현 방식을 제안합니다. 비인과적 어텐션을 활용한 구조적 정제 모듈을 통해 전역적 일관성을 높이고 추론 속도를 3배 향상시켰습니다.

핵심 포인트

자기회귀 디코더의 순서 의존성으로 인한 일관성 저해 문제 해결
비인과적 어텐션을 통한 순서 독립적 셀 특징 생성
전역 문맥을 활용한 셀 내용의 병렬 추론 가능
엔드투엔드 인식 성능 향상 및 추론 시간 약 3배 단축

멀티태스크 테이블 인식 (Multi-task table recognition)은 통합된 프레임워크 내에서 테이블 구조 예측 (table structure prediction), 셀 위치 식별 (cell localization), 그리고 셀 내용 인식 (cell content recognition)을 공동으로 다룹니다. 기존 방식들은 테이블 구조를 생성하기 위해 자기회귀 디코더 (autoregressive decoders)에 의존하며, 셀 위치 식별 및 내용 인식을 위해 이들의 은닉 상태 (hidden states)를 재사용하는 경우가 많습니다. 이러한 자기회귀 생성 과정은 셀 표현 (cell representations)을 순서 의존적 (order-dependent)으로 만들 수 있으며, 이는 셀 간의 전역적 일관성 (global consistency)을 저해합니다. 본 논문은 비인과적 어텐션 (non-causal attention)을 통해 순서 독립적 (order-independent)인 셀 특징 (cell features)을 생성하는 구조적 정제 모듈 (structural refinement module)을 제안합니다. 이 설계는 정제된 특징에 인코딩된 전역 문맥 (global context)을 각 셀의 조건으로 삼으면서도, 셀 내용의 병렬 추론 (parallel inference)을 가능하게 합니다. 두 개의 대규모 데이터셋에 대한 실험을 통해 셀 위치 식별 및 엔드투엔드 인식 (end-to-end recognition)에서 일관된 성능 향상을 입증하였으며, 동시에 전체 추론 시간 (inference time)을 약 3배 정도 단축하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

순서 독립적 셀 수준 표현을 통한 자기회귀적 멀티태스크 테이블 인식에서의 구조적 의존성 재고

요약

핵심 포인트

댓글