arXiv논문2026. 06. 23. 14:35

개체 정렬 (Entity Alignment)을 위한 술어 중요도 추정 및 분리된 근거 점수 증류

요약

지식 그래프(KG) 통합을 위한 개체 정렬(EA) 문제를 해결하기 위해 PIE와 DRSD라는 두 가지 모듈을 제안합니다. PIE는 술어 중요도를 추정하여 개체 임베딩을 구축하며, DRSD는 교사 LLM의 지식을 소형 언어 모델(SLM)로 증류하여 신뢰도 점수와 추론을 분리합니다.

핵심 포인트

PIE를 통한 술어 인지적 개체 임베딩 구축
DRSD를 활용한 SLM의 작업 특화 추론 학습
신뢰도 점수와 결정의 분리를 통한 불확실성 탐지
인간 참여형(human-in-the-loop) 검증 가능성 제시

지식 그래프 (Knowledge Graphs, KGs)는 대규모 언어 모델 (Large Language Models, LLMs)을 위한 구조화된 컨텍스트로 점점 더 많이 사용되고 있지만, 산업용 KG-RAG 시스템은 이기종 데이터베이스로부터 구축된 공개 및 도메인 특화 KG를 통합해야 하는 경우가 많습니다. 이러한 통합은 개체 정렬 (Entity Alignment, EA)에 의존하는데, 술어 이름 (predicate-name)의 변동성과 불완전한 로컬 이웃 (local neighborhoods) 하에서는 어휘적 매칭 (lexical matching)만으로는 불충분합니다. 우리는 쌍별 (pairwise) EA 데이터셋을 구축하고 두 가지 상호 보완적인 모듈인 술어 중요도 추정 (Predicate Importance Estimation, PIE) 및 분리된 근거 점수 증류 (Decoupled Rationale-Score Distillation, DRSD)를 제안함으로써 KG 통합을 위한 EA 문제를 해결합니다. PIE는 각 1-hop 트리플 (triple)에서 주어 (subject) 정보를 제거하고, 결과적으로 생성된 주어 없는 트리플을 인코딩하며, 이를 학습 가능한 술어 중요도 가중치와 함께 집계하여 술어 인지적 개체 임베딩 (predicate-aware entity embeddings)을 구축하는 컴팩트한 임베딩 기반 접근 방식입니다. DRSD는 서로 다른 프롬프트를 통해 교사 LLM (teacher LLM)이 생성한 의사 정답 (pseudo-answers)을 사용하여 증류된 소형 언어 모델 (small language model, SLM)을 학습시킵니다. 이진 EA 레이블을 텍스트 기반 감독 (text-based supervision)으로 변환하고 신뢰도 점수 추정 (confidence-score estimation)을 레이블과 일치하는 근거 (label-consistent rationales)로부터 분리함으로써, DRSD는 SLM이 레이블 편향이 적은 신뢰도 신호를 유지하면서도 작업 특화된 추론을 학습할 수 있도록 합니다. 실험 결과 PIE와 DRSD가 EA 분류 성능을 향상시킴을 보여줍니다. 또한, DRSD는 신뢰도 점수 추정을 결정으로부터 분리하기 때문에, 두 플래그 사이의 불일치는 인간의 검토가 필요한 불확실한 예측을 나타내며, 이를 통해 자동 수락과 인간 참여형 (human-in-the-loop) 검증 사이의 실질적인 불일치를 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

개체 정렬 (Entity Alignment)을 위한 술어 중요도 추정 및 분리된 근거 점수 증류

요약

핵심 포인트

댓글