구조 가이드 기반 개체 해상도: 복잡한 언어적 맥락에서의 견고한 이름 매칭을 위한 LLM 미세 조정 (Fine-Tuning)
요약
복잡한 언어적 맥락에서 인명을 정확히 매칭하기 위한 SGER 프레임워크를 제안합니다. 2단계 커리큘럼 학습을 통해 문법적 구조 파싱과 이진 매칭을 최적화하여 기존 GPT-4o 퓨샷 성능을 능가하는 결과를 얻었습니다.
핵심 포인트
- 2단계 커리큘럼 학습을 통한 SGER 프레임워크 제안
- 인도 신원 데이터셋에서 99.02%의 높은 정확도 달성
- GPT-4o 퓨샷 및 단일 단계 미세 조정 모델 능가
- Dream11 프로덕션 환경에 실제 배포 및 검증 완료
이질적인 기록 간에 인명을 매칭하는 것은 개체 해상도 (Entity Resolution) 분야의 핵심 과제이며, 특히 언어적 및 문화적으로 복잡한 환경에서 더욱 그러합니다. 명명 규칙의 변형, 스크립트 간의 일관되지 않은 음차 (Transliteration), 그리고 빈번한 데이터 입력 오류는 고객 확인 제도 (KYC) 준수를 위한 필수 요구 사항인 사용자 신원 통합을 어렵게 만듭니다. 거대 언어 모델 (LLM)이 자연어를 이해하는 데 있어 유망한 가능성을 보여주었지만, 이러한 도메인 특화 환경에 존재하는 구조적 모호성에는 종종 어려움을 겪습니다. 본 논문은 2단계 커리큘럼을 통해 LLM을 미세 조정 (Fine-Tuning)하는 새로운 프레임워크인 구조 가이드 기반 개체 해상도 (Structure-Guided Entity Resolution, SGER)를 소개합니다. 모델은 먼저 인명의 문법적 및 의미적 구조를 파싱하도록 학습된 후, 이진 개체 매칭 (Binary Entity Matching)이라는 다운스트림 태스크 (Downstream Task)를 위해 최적화됩니다. 우리는 전 세계에서 가장 언어적으로 다양하고 노이즈가 많은 환경 중 하나인 인도 신원 데이터의 까다로운 맥락에서 SGER를 평가합니다. SGER는 50,000개의 실제 쌍으로 구성된 홀드아웃 (Held-out) 데이터셋에서 99.02%의 정확도와 0.994의 F1 점수를 달성하였으며, 이는 GPT-4o 퓨샷 프롬프팅 (Few-shot Prompting) 및 단일 단계 미세 조정 (Single-stage Fine-tuning) 베이스라인을 능가하는 성능입니다. 이 시스템은 2억 5천만 명 이상의 사용자를 보유한 세계 최대의 판타지 스포츠 플랫폼인 Dream11의 프로덕션 환경에 완전히 배포되었습니다. 우리의 결과는 커리큘럼 가이드 학습 (Curriculum-guided Training)이 대규모의 실제 다국어 시스템에서 견고하고 정밀도가 높은 개체 해상도를 가능하게 함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기