지식 그래프에서의 그래프 간(Graph-to-Graph) 의미적 유사성 측정: 지식 그래프 임베딩(Knowledge Graph
요약
지식 그래프(KG) 간의 의미적 유사성을 측정하기 위한 새로운 연구를 제안합니다. 기존의 엔티티나 구조 중심 접근법을 넘어, KG 임베딩을 활용해 그래프 수준의 의미론을 효과적으로 포착하는 방법을 다룹니다.
핵심 포인트
- 기존 KG 임베딩의 한계인 그래프 수준 의미론 문제를 해결하고자 함
- 텍스트 기반, 구조 기반, KG 임베딩 기반 접근 방식 비교 연구
- 새로운 스코어링 함수인 EmbPairSim과 AvgEmbSim 도입
- EmbPairSim이 Sentence-BERT 대비 높은 MRR 성능 달성 확인
지식 그래프 (Knowledge Graph, KG)는 사실을 구조화된 트리플 (triples)로 표현하며, 다양한 도메인에 걸쳐 관계적 지식을 조직하는 데 널리 사용됩니다. 텍스트 정보가 단어와 문장에서 완전한 문서에 이르기까지 다양한 범위를 갖는 것과 마찬가지로, KG 정보는 엔티티 (entities), 관계 (relations), 트리플 (triples)부터 서브그래프 (subgraphs) 및 전체 KG에 이르기까지 여러 수준에서 해석될 수 있습니다. 그러나 기존의 KG 임베딩 (KG embedding) 방법들은 주로 엔티티, 관계, 트리플에 집중되어 있어, 그래프 수준의 의미론 (graph-level semantics)은 대체로 다뤄지지 않고 있습니다. 일반적으로 구조적 패턴을 기반으로 그래프를 비교하는 기존의 그래프 수준 방법들 또한, 구조적 유사성만으로는 KG 간의 의미적 유사성을 보장할 수 없기 때문에 불충분합니다. 다양한 방법들이 이러한 그래프 수준의 의미 정보를 얼마나 잘 포착하는지 평가하기 위해, 우리는 한 쌍의 KG가 의미적으로 대응하는 기저 정보를 나타내는지 결정하는 그래프 간 (graph-to-graph) 의미적 유사성을 연구합니다. 신뢰할 수 있는 정답 (ground-truth) 대응 관계를 얻기 위해, 우리는 텍스트 문서를 수정하고, 원본 및 수정된 문서 모두에서 KG를 추출하며, 알려진 대응 관계를 KG 쌍으로 전이함으로써 의미적 매칭 데이터셋을 구축합니다. 우리는 각 데이터셋에 대해 텍스트 기반, 구조 기반, 그리고 KG 임베딩 기반 접근 방식을 비교합니다. KG 임베딩 기반 접근 방식의 경우, 우리는 두 가지 스코어링 함수 (scoring functions)를 도입합니다: 최대 쌍별 엔티티 유사성을 사용하는 \textit{EmbPairSim}, 그리고 빈도 가중 중심점 (frequency-weighted centroid)을 사용하는 \textit{AvgEmbSim}입니다. WikiText-2 및 CC-News에 대한 실험 결과, \textit{EmbPairSim}은 훨씬 적은 파라미터를 사용하면서도 Sentence-BERT보다 최대 5.3 pp 더 높은 MRR을 달성했습니다. 이러한 결과는 KGE 표현이 KG에서의 그래프 간 의미적 유사성을 위한 압축적이고 효과적인 신호로 기능할 수 있음을 시사합니다. 우리의 코드는 https://github.com/SeungRyeolBaek/KG-to-KG-Semantic-Similarity 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기