예산 제약이 있는 개체 매칭(Entity Matching)에서 도메인 인지 분포 정렬(Domain-Aware Distribution
요약
본 논문은 저자원 및 도메인 인지 환경에서의 개체 매칭(Entity Matching) 방법론인 BEACON을 조사합니다. 다양한 알고리즘 선택과 데이터 가용성 조건이 성능에 미치는 영향을 분석하여 분포 정렬의 역할을 규명합니다.
핵심 포인트
- 저자원 및 도메인 인지 EM 방법론인 BEACON 연구
- 데이터 가용성 및 알고리즘 선택에 따른 성능 변화 분석
- 분포 정렬(Distribution Alignment)의 역할에 대한 통찰 제공
개체 매칭 (Entity Matching, EM)은 데이터 통합 파이프라인의 핵심 작업으로, 서로 다른 출처의 레코드들을 비교하여 이들이 동일한 실제 세계의 개체(entity)를 참조하는지 여부를 결정합니다. 최근 연구들은 EM 시스템을 실제 환경에 더 잘 적응시키기 위해 도메인 정보와 저자원 학습 (low-resource learning) 기술을 통합해 왔습니다. 이러한 접근 방식들은 강력한 성능을 입증했지만, 실제 상황에서 다양한 데이터 제약 조건과 감독 (supervision) 수준 하에서 어떻게 동작하는지는 여전히 불분명합니다. 본 논문에서는 저자원, 도메인 인지 EM 방법론인 BEACON에 대해 조사하고, 다양한 알고리즘 선택과 데이터 가용성 조건이 성능에 어떠한 영향을 미치는지 연구합니다. 우리는 이러한 변수들을 평가하기 위해 일련의 표적 실험을 수행하며, 이를 통해 분포 정렬 (distribution alignment)의 역할과 BEACON 프레임워크의 동작에 대한 더 깊은 통찰을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기