의미론적 유사성 및 시간 슬라이스별로 분류된 최신 1,100만 편의 논문 지도
요약
1,100만 편의 논문을 SPECTER 2로 인코딩하고 UMAP으로 시각화하여 연구 트렌드를 파악할 수 있는 지도를 구축했습니다. 시간 슬라이스 기능과 자동 수집 스크립트를 통해 최신 연구 동향을 거시적으로 탐색할 수 있습니다.
핵심 포인트
- OpenAlex와 Arxiv 데이터를 활용한 1,100만 편 규모의 논문 지도
- SPECTER 2 인코딩 및 UMAP을 이용한 2차원 시각화 구현
- 의미론적 쿼리 및 기관, 저자, 주제별 분석 레이어 지원
- 시간 슬라이스 기능 및 일일 자동 수집 시스템 구축
저는 과학 문헌을 탐색하는 대안적인 방법들을 구축하고 있습니다. 목표는 거시적인 트렌드를 시각화함으로써 매일 발표되는 방대한 양의 논문을 더 쉽게 따라갈 수 있도록 만드는 것이었습니다.
관심 있는 분이라면 누구나 The Global Research Space에서 무료로 사용해 보실 수 있습니다!
구축 방법
저는 OpenAlex와 Arxiv에서 최신 1,100만 편의 논문을 확보하였고, 제목과 초록(abstracts)에 대해 SPECTER 2를 사용하여 인코딩(encoding)했습니다. 그 후 UMAP을 사용하여 2차원으로 투영(projecting)하고, 점점 더 깊은 깊이에서 고밀도 피크(high density peaks) 주변의 보로노이 경계(voronoi bounds) 내에 레이블을 생성했습니다.
키워드 및 의미론적 쿼리(semantic queries)를 모두 지원하며, 기관, 저자, 주제 등을 순위 매기기 위한 분석 레이어(analytics layer)도 있습니다.
또한 최근에는 시간을 앞뒤로 슬라이드할 수 있는 기능과 지도가 최신 상태를 유지할 수 있도록 하는 일일 자동 수집(auto ingestion) 스크립트를 추가했습니다.
피드백이나 제안은 언제나 환영합니다!
submitted by /u/icannotchangethename to r/MachineLearning
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기