개체 정렬 (Entity Alignment)을 위한 술어 중요도 추정 및 분리된 근거 점수 증류
요약
지식 그래프(KG) 통합을 위한 개체 정렬(EA) 문제를 해결하기 위해 PIE와 DRSD라는 두 가지 모듈을 제안합니다. PIE는 술어 중요도를 추정하여 개체 임베딩을 구축하며, DRSD는 교사 LLM의 지식을 소형 언어 모델(SLM)로 증류하여 신뢰도 점수와 추론을 분리합니다.
핵심 포인트
- PIE를 통한 술어 인지적 개체 임베딩 구축
- DRSD를 활용한 SLM의 작업 특화 추론 학습
- 신뢰도 점수와 결정의 분리를 통한 불확실성 탐지
- 인간 참여형(human-in-the-loop) 검증 가능성 제시
지식 그래프 (Knowledge Graphs, KGs)는 대규모 언어 모델 (Large Language Models, LLMs)을 위한 구조화된 컨텍스트로 점점 더 많이 사용되고 있지만, 산업용 KG-RAG 시스템은 이기종 데이터베이스로부터 구축된 공개 및 도메인 특화 KG를 통합해야 하는 경우가 많습니다. 이러한 통합은 개체 정렬 (Entity Alignment, EA)에 의존하는데, 술어 이름 (predicate-name)의 변동성과 불완전한 로컬 이웃 (local neighborhoods) 하에서는 어휘적 매칭 (lexical matching)만으로는 불충분합니다. 우리는 쌍별 (pairwise) EA 데이터셋을 구축하고 두 가지 상호 보완적인 모듈인 술어 중요도 추정 (Predicate Importance Estimation, PIE) 및 분리된 근거 점수 증류 (Decoupled Rationale-Score Distillation, DRSD)를 제안함으로써 KG 통합을 위한 EA 문제를 해결합니다. PIE는 각 1-hop 트리플 (triple)에서 주어 (subject) 정보를 제거하고, 결과적으로 생성된 주어 없는 트리플을 인코딩하며, 이를 학습 가능한 술어 중요도 가중치와 함께 집계하여 술어 인지적 개체 임베딩 (predicate-aware entity embeddings)을 구축하는 컴팩트한 임베딩 기반 접근 방식입니다. DRSD는 서로 다른 프롬프트를 통해 교사 LLM (teacher LLM)이 생성한 의사 정답 (pseudo-answers)을 사용하여 증류된 소형 언어 모델 (small language model, SLM)을 학습시킵니다. 이진 EA 레이블을 텍스트 기반 감독 (text-based supervision)으로 변환하고 신뢰도 점수 추정 (confidence-score estimation)을 레이블과 일치하는 근거 (label-consistent rationales)로부터 분리함으로써, DRSD는 SLM이 레이블 편향이 적은 신뢰도 신호를 유지하면서도 작업 특화된 추론을 학습할 수 있도록 합니다. 실험 결과 PIE와 DRSD가 EA 분류 성능을 향상시킴을 보여줍니다. 또한, DRSD는 신뢰도 점수 추정을 결정으로부터 분리하기 때문에, 두 플래그 사이의 불일치는 인간의 검토가 필요한 불확실한 예측을 나타내며, 이를 통해 자동 수락과 인간 참여형 (human-in-the-loop) 검증 사이의 실질적인 불일치를 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기