순서 독립적 셀 수준 표현을 통한 자기회귀적 멀티태스크 테이블 인식에서의 구조적 의존성 재고
요약
멀티태스크 테이블 인식에서 발생하는 셀 표현의 순서 의존성 문제를 해결하기 위해 순서 독립적 셀 수준 표현 방식을 제안합니다. 비인과적 어텐션을 활용한 구조적 정제 모듈을 통해 전역적 일관성을 높이고 추론 속도를 3배 향상시켰습니다.
핵심 포인트
- 자기회귀 디코더의 순서 의존성으로 인한 일관성 저해 문제 해결
- 비인과적 어텐션을 통한 순서 독립적 셀 특징 생성
- 전역 문맥을 활용한 셀 내용의 병렬 추론 가능
- 엔드투엔드 인식 성능 향상 및 추론 시간 약 3배 단축
멀티태스크 테이블 인식 (Multi-task table recognition)은 통합된 프레임워크 내에서 테이블 구조 예측 (table structure prediction), 셀 위치 식별 (cell localization), 그리고 셀 내용 인식 (cell content recognition)을 공동으로 다룹니다. 기존 방식들은 테이블 구조를 생성하기 위해 자기회귀 디코더 (autoregressive decoders)에 의존하며, 셀 위치 식별 및 내용 인식을 위해 이들의 은닉 상태 (hidden states)를 재사용하는 경우가 많습니다. 이러한 자기회귀 생성 과정은 셀 표현 (cell representations)을 순서 의존적 (order-dependent)으로 만들 수 있으며, 이는 셀 간의 전역적 일관성 (global consistency)을 저해합니다. 본 논문은 비인과적 어텐션 (non-causal attention)을 통해 순서 독립적 (order-independent)인 셀 특징 (cell features)을 생성하는 구조적 정제 모듈 (structural refinement module)을 제안합니다. 이 설계는 정제된 특징에 인코딩된 전역 문맥 (global context)을 각 셀의 조건으로 삼으면서도, 셀 내용의 병렬 추론 (parallel inference)을 가능하게 합니다. 두 개의 대규모 데이터셋에 대한 실험을 통해 셀 위치 식별 및 엔드투엔드 인식 (end-to-end recognition)에서 일관된 성능 향상을 입증하였으며, 동시에 전체 추론 시간 (inference time)을 약 3배 정도 단축하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기