의미론적 증강(Semantic Augmentation)을 통한 파편화된 인용 네트워크의 재연결
요약
본 기사는 과학 논문의 인용 그래프가 누락된 연결로 인해 파편화되는 문제를 해결하기 위한 하이브리드 프레임워크를 제안합니다. 이 프레임워크는 인용 토폴로지 정보와 LLM 기반의 텍스트 유사성을 결합하여 의미론적 에지를 추가하고 기존 인용에 가중치를 부여함으로써 그래프를 증강합니다. 이를 통해 학문적 동질성을 유지하면서 파편화를 효과적으로 감소시키고, 구조적 해석 가능성을 갖춘 다중 스케일 조직화가 가능한 지표를 제공합니다.
핵심 포인트
- 인용 그래프의 파편화 문제를 해결하기 위해 인용 토폴로지와 LLM 기반 텍스트 유사성을 결합한 하이브리드 프레임워크를 제안함.
- 제안된 방법은 의미론적 에지를 추가하고 기존 인용에 가중치를 부여하여 원래의 그래프를 증강시킴.
- Leiden 알고리즘을 사용하여 증강된 그래프에서 클러스터 탐지 시, 구조적 해석 가능성을 유지하며 다중 스케일 조직화를 달성함.
- 이 방법은 대규모 데이터셋으로 효율적으로 확장 가능하며 인용 기반 지표 강화에 실질적인 전략을 제공함.
인용 그래프(Citation graphs)는 과학적 구조를 모델링하는 데 있어 필수적인 도구이지만, 과학적으로 연결된 논문들의 인용이 누락됨에 따라 종종 파편화되는 문제가 발생합니다. 이 문제를 해결하기 위해, 우리는 인용 토폴로지(citation topology)와 대규모 언어 모델(LLM) 기반의 텍스트 유사성을 통합하는 계산 효율적인 하이브리드 프레임워크를 제안합니다. 수학(Mathematics) 및 운영 연구 및 경영 과학(Operations Research & Management Science) 분야의 Web of Science 출판물 662,369개를 사용하여, 우리는 작고 분리된 구성 요소들로부터 의미론적 에지(semantic edges)를 추가하고 텍스트 유사성에 따라 기존 인용에 가중치를 부여함으로써 원래의 그래프를 증강합니다. 의미론적 증강(Semantic augmentation)은 학문적 동질성(disciplinary homogeneity)을 유지하면서 파편화를 실질적으로 감소시킵니다. 임베딩 전용 클러스터링(embedding-only clustering)과 비교했을 때, Leiden 알고리즘을 사용하여 증강된 그래프에서 수행된 클러스터 탐지(cluster detection)는 구조적 해석 가능성(structural interpretability)을 유지하면서도 다중 스케일 조직화(multi-scale organization)를 제공합니다. 이 방법은 대규모 데이터셋으로 효율적으로 확장 가능하며, 학문적 경계를 무너뜨리지 않으면서 인용 기반 지표를 강화할 수 있는 실질적인 전략을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기