이질적 테이블 표현을 위한 세그먼트 기반 구조적 유도 및 의미론적 정렬
요약
이질적인 테이블 구조에서 헤더와 값 사이의 의미론적 관계를 학습하기 위한 NAVI 프레임워크를 제안합니다. 세그먼트 중심의 사전 학습을 통해 스키마 수준의 구조적 증거와 열 수준의 분포적 증거를 결합하여 테이블 이해도를 높였습니다.
핵심 포인트
- NAVI: 세그먼트 중심의 사전 학습 프레임워크 제안
- 마스크 세그먼트 모델링 및 엔트로피 기반 정렬 기술 적용
- 구조적 증거와 분포적 증거를 결합하여 의미론적 정렬 강화
- 이질적 도메인 테이블의 재구성 및 다운스트림 성능 향상
실제 세계의 도메인은 헤더(header)는 서로 다르지만 기저의 속성 의미론(attribute semantics)은 공유되는 이질적 테이블(heterogeneous tables)을 포함하는 경우가 많으며, 이로 인해 테이블 로컬 증거(table-local evidence)만으로는 도메인 특화된 의미론을 유도하기 어렵습니다. 기존의 인코더(encoder)들은 이 문제의 일부를 모델링하지만, 열 수준의 값 분포(column-level value distributions)를 충분히 활용하지 못하거나 서로 다른 의미론적 역할을 가진 속성들에 대해 균일한 목적 함수(uniform objectives)를 적용하는 경우가 많습니다. 우리는 각 헤더-값 쌍(header-value pair)을 스키마 수준의 구조적 증거(schema-level structural evidence)와 열 수준의 분포적 증거(column-level distributional evidence)를 집계하는 단위로 취급하는 세그먼트 중심 사전 학습(segment-centric pretraining) 프레임워크인 NAVI를 제안합니다. 우리는 마스크 세그먼트 모델링(Masked Segment Modeling)과 엔트로피 기반 세그먼트 정렬(Entropy-driven Segment Alignment)을 통해 이 설계를 구현하며, 이는 안정적인 속성(stable attributes)과 인스턴스 특화 속성(instance-specific attributes) 전반에 걸쳐 구조화된 헤더-값 결합(header-value coupling)과 의미론적 정렬(semantic alignment)을 공동으로 강제합니다. 이질적인 도메인 내 테이블에 대한 실험 결과, 모든 평가 설정에서 재구성(reconstruction), 의미론적 일관성(semantic consistency) 및 다운스트림 유용성(downstream utility)이 전반적으로 향상됨을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기