arXiv논문2026. 06. 02. 11:48

이질적 테이블 표현을 위한 세그먼트 기반 구조적 유도 및 의미론적 정렬

요약

이질적인 테이블 구조에서 헤더와 값 사이의 의미론적 관계를 학습하기 위한 NAVI 프레임워크를 제안합니다. 세그먼트 중심의 사전 학습을 통해 스키마 수준의 구조적 증거와 열 수준의 분포적 증거를 결합하여 테이블 이해도를 높였습니다.

핵심 포인트

NAVI: 세그먼트 중심의 사전 학습 프레임워크 제안
마스크 세그먼트 모델링 및 엔트로피 기반 정렬 기술 적용
구조적 증거와 분포적 증거를 결합하여 의미론적 정렬 강화
이질적 도메인 테이블의 재구성 및 다운스트림 성능 향상

실제 세계의 도메인은 헤더(header)는 서로 다르지만 기저의 속성 의미론(attribute semantics)은 공유되는 이질적 테이블(heterogeneous tables)을 포함하는 경우가 많으며, 이로 인해 테이블 로컬 증거(table-local evidence)만으로는 도메인 특화된 의미론을 유도하기 어렵습니다. 기존의 인코더(encoder)들은 이 문제의 일부를 모델링하지만, 열 수준의 값 분포(column-level value distributions)를 충분히 활용하지 못하거나 서로 다른 의미론적 역할을 가진 속성들에 대해 균일한 목적 함수(uniform objectives)를 적용하는 경우가 많습니다. 우리는 각 헤더-값 쌍(header-value pair)을 스키마 수준의 구조적 증거(schema-level structural evidence)와 열 수준의 분포적 증거(column-level distributional evidence)를 집계하는 단위로 취급하는 세그먼트 중심 사전 학습(segment-centric pretraining) 프레임워크인 NAVI를 제안합니다. 우리는 마스크 세그먼트 모델링(Masked Segment Modeling)과 엔트로피 기반 세그먼트 정렬(Entropy-driven Segment Alignment)을 통해 이 설계를 구현하며, 이는 안정적인 속성(stable attributes)과 인스턴스 특화 속성(instance-specific attributes) 전반에 걸쳐 구조화된 헤더-값 결합(header-value coupling)과 의미론적 정렬(semantic alignment)을 공동으로 강제합니다. 이질적인 도메인 내 테이블에 대한 실험 결과, 모든 평가 설정에서 재구성(reconstruction), 의미론적 일관성(semantic consistency) 및 다운스트림 유용성(downstream utility)이 전반적으로 향상됨을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

이질적 테이블 표현을 위한 세그먼트 기반 구조적 유도 및 의미론적 정렬

요약

핵심 포인트

댓글