Large Language Models를 이용한 단일 및 다중 진실 데이터 융합 (Single and Multi Truth Data
요약
본 논문은 정형 데이터의 단일 및 다중 진실 데이터 융합 작업에서 LLM의 활용 가능성을 조사합니다. 다양한 프롬프팅 전략을 통해 실험한 결과, LLM 기반 방식이 기존의 비지도 진실 발견 방법론보다 우수한 성능을 보임을 입증했습니다.
핵심 포인트
- 단일 진실 및 다중 진실 시나리오를 모두 포함하는 데이터 융합 연구
- 도메인 의존/독립, 제로샷, 원샷 등 다양한 프롬프팅 전략 평가
- LLM이 기존 비지도 학습 방식(DART, LTM)보다 뛰어난 성능 기록
- 연구 결과 및 코드베이스 GitHub 공개
데이터 융합 (Data fusion)은 진실 발견 (truth discovery)이라고도 알려져 있으며, 여러 소스로부터 잠재적으로 상충하는 값들이 제시될 때 객체의 각 속성에 대한 정확한 값 또는 값의 집합을 결정하는 것을 목표로 하는 데이터 통합 (data integration) 문제입니다. 데이터 융합 작업은 두 가지 주요 범주로 나뉩니다: 각 속성에 단 하나의 정확한 값만 존재하는 단일 진실 (single-truth) 시나리오와, 여러 값이 동시에 유효할 수 있는 다중 진실 (multi-truth) 시나리오입니다. 본 논문은 정형 데이터 (tabular data)의 데이터 융합 작업에서 Large Language Models (LLMs)의 사용을 조사합니다. 단일 진실 및 다중 진실 시나리오를 모두 포함하는 다양한 프롬프팅 (prompting) 전략을 경험적으로 조사합니다. 도메인 의존적 (domain-dependent), 도메인 독립적 (domain-independent), 제로샷 (zero-shot) 및 원샷 (one-shot) 프롬프트를 세 가지 서로 다른 벤치마크 데이터셋에서 평가합니다. 실험 결과, LLM 기반 접근 방식이 모든 데이터셋에서 DART 및 LTM과 같은 전통적인 비지도 진실 발견 (unsupervised truth discovery) 방법보다 뛰어난 성능을 보임을 입증합니다. 본 연구의 코드베이스는 GitHub에 공개되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기