arXiv논문2026. 06. 30. 11:21

대규모 언어 모델(LLM)을 사용한 개체 매칭(Entity Matching)용 학습 데이터 레이블링

요약

LLM을 교사 모델로 활용하여 개체 매칭(Entity Matching)을 위한 학습 데이터를 자동으로 레이블링하고, 이를 소규모 모델에 지식 증류하는 워크플로우를 제안합니다. 실험 결과, 기계로 레이블링된 데이터로 학습된 학생 모델이 수동 레이블링 모델과 대등한 성능을 보이면서도 비용과 시간을 획기적으로 절감함을 입증했습니다.

핵심 포인트

LLM을 활용한 지식 증류로 작업 특화 학습 데이터 구축 비용 절감
기계 레이블링 데이터 기반 학생 모델이 기존 벤치마크와 유사한 성능 달성
LLM 직접 사용 대비 추론 속도 최대 534배 향상
수동 레이블링 대비 시간 및 비용 측면에서 압도적인 효율성 증명

최근의 대규모 언어 모델(LLMs)은 작업 특화된 학습 데이터(task-specific training data)를 필요로 하지 않고도 개체 매칭(entity matching)에서 강력한 성능을 달성합니다. 그러나 이러한 모델을 대규모의 후보 쌍(candidate pairs) 세트에 적용하는 것은 여전히 느리고 비용이 많이 듭니다. 반면, RoBERTa와 같은 전통적인 머신러닝(machine learning) 방법이나 소규모 언어 모델(SLMs)을 사용하는 개체 매칭기(entity matchers)는 훨씬 빠른 추론(inference)을 제공하지만, 작업 특화된 학습 데이터가 필요합니다. 본 논문은 LLM이 교사 모델(teacher model) 역할을 하여 학습 쌍(training pairs)에 레이블을 달고, 이를 이후 더 작은 학생 모델(student model)을 학습시키는 데 사용하는 지식 증류(knowledge-distillation) 워크플로우를 통해 작업 특화된 학습 데이터를 제공해야 하는 필요성을 피할 수 있는지 조사합니다. 우리는 쌍 선택 전략(pair-selection strategy), 교사 모델(teacher model), 레이블 후처리 방법(label post-processing method), 그리고 학생 모델(student model)이라는 측면을 따라 개체 매칭을 위한 지식 증류를 조사합니다. 우리는 Abt-Buy, Walmart-Amazon, WDC Products, DBLP-ACM, 그리고 DBLP-Scholar 벤치마크를 사용하여 워크플로우를 평가하며, 기계로 레이블링된 데이터로 학습된 학생 모델의 성능을 벤치마크 학습 세트로 학습된 동일 모델의 성능과 비교합니다. 실험 결과, 기계로 레이블링된 세트를 사용하여 학습된 학생 모델은 벤치마크 학습 세트로 학습된 모델과 거의 대등한 성능을 보였으며, 양방향의 잔여 차이는 모두 F1 점수 2점 미만으로 유지되었습니다. 5개 벤치마크 모두에 대해 학습 세트에 레이블을 달기 위해 GPT-5.2를 사용하는 데 드는 비용은 미화 28.31달러에서 40.88달러 사이인 반면, 동일한 학습 세트를 수동으로 레이블링하는 데는 470시간의 작업이 필요한 것으로 추정됩니다. 추론 시점에 Ditto는 매칭 작업을 수행하기 위해 LLM을 직접 사용하는 것보다 41.5배에서 534배 더 빠릅니다. 이러한 결과는 현재의 LLM이 적절한 쌍 선택 방법과 결합될 때, 개체 매칭을 위한 유스케이스 특화 학습 데이터를 레이블링하는 데 필요한 수동 노력을 실질적으로 줄이거나 심지어 제거할 수 있음을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLM)을 사용한 개체 매칭(Entity Matching)용 학습 데이터 레이블링

요약

핵심 포인트

댓글