오픈 카탈로그 기반 배터리 연구 지식 그래프 구축 방법론
요약
본 논문은 대규모 오픈 서지 카탈로그인 OpenAlex를 활용하여 저자 중심의 배터리 연구 지식 그래프(Knowledge Graph)를 구축하는 파이프라인을 제시합니다. 핵심은 각 저자에 대해 거친 개념(coarse-grained concepts)과 제목/초록에서 추출한 세밀한 키프레이즈를 결합한 가중치 연구 기술자 벡터(weighted research descriptors vector)를 도출하는 것입니다. 이 방법론은 189,581개의 배터리 관련 논문 코퍼스에 적용되었으며, 저자 간 유사성 계산, 커뮤니티 탐지 등을 지원합니다
핵심 포인트
- OpenAlex와 KeyBERT/ChatGPT 조합을 사용하여 대규모 오픈 카탈로그 기반의 연구 지식 그래프를 구축했습니다.
- 저자별 가중치 기술자 벡터는 OpenAlex 개념, 키프레이즈, 저자 위치, 시간적 최신성을 종합적으로 반영합니다.
- 189,581개의 배터리 관련 논문 코퍼스에 적용하여 저자 유사성 및 커뮤니티 탐지 기능을 구현했습니다.
- 결과 지식 그래프는 RDF로 직렬화되어 Wikidata와 연동 가능하며, 도메인 의미론 기반의 상호운용성을 확보합니다.
배터리 연구 분야는 빠르게 성장하고 학제 간 경계가 높은 특성상, 관련 전문 지식을 추적하거나 기관 경계를 넘어 잠재적인 협력자를 식별하는 것이 매우 어렵습니다. 본 연구에서는 이러한 문제를 해결하기 위해 대규모 오픈 서지 카탈로그인 OpenAlex를 기반으로 저자 중심의 배터리 연구 지식 그래프(Knowledge Graph) 구축 파이프라인을 제안합니다.
제안된 방법론의 핵심은 각 저자에 대해 '가중치 연구 기술자 벡터(weighted research descriptors vector)'를 도출하는 것입니다. 이 벡터는 두 가지 유형의 정보를 결합하여 구성됩니다: 첫째, OpenAlex에서 제공하는 거친 개념(coarse-grained concepts) 정보입니다. 둘째, 제목과 초록에서 KeyBERT와 ChatGPT (gpt-3.5-turbo) 백엔드 모델을 사용하여 추출한 세밀한 키프레이즈(fine-grained keyphrases)입니다.
이 벡터의 각 구성 요소는 단순히 정보를 나열하는 것이 아니라, 연구 기술자 출처(research descriptor origin), 저자 기여도(authorship position), 그리고 시간적 최신성(temporal recency)에 따라 가중치가 부여됩니다. 이러한 다차원적인 가중치 부여 방식 덕분에 단순한 인용 횟수나 공동 저술 구조만으로는 파악하기 어려웠던, 도메인 의미론 기반의 깊이 있는 유사성을 측정할 수 있습니다.
실제 적용 사례로, 본 프레임워크는 총 189,581개의 배터리 관련 논문 코퍼스에 성공적으로 적용되었습니다. 이를 통해 구축된 지식 그래프는 다음과 같은 기능을 지원합니다: 저자 간의 유사성 계산(author-author similarity computation), 연구 커뮤니티 탐지(community detection), 그리고 브라우저 기반 인터페이스를 통한 탐색적 검색(exploratory search)이 가능합니다.
나아가, 구축된 지식 그래프는 RDF 형식으로 직렬화되어 Wikidata 식별자와 연결됩니다. 이는 외부의 링크드 오픈 데이터 소스(linked open data sources)와 높은 상호운용성(interoperability)을 보장하며, 배터리 도메인을 넘어 다른 분야로 확장 가능한 구조적 기반을 마련합니다.
기존의 저자 중심 분석이 주로 특정 기관 저장소(institutional repositories)에 국한되어 있었다는 한계를 극복하고, 본 접근 방식은 기관 경계를 초월하는 대규모 규모에서 작동하며, 단순 인용이나 공동 저술 관계가 아닌 '도메인 의미론' 자체를 유사성의 근거로 삼는다는 점에서 큰 학문적 의의를 가집니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기