arXiv논문2026. 06. 29. 11:06

과학과 소프트웨어의 상호 영향: 연구가 소프트웨어를 형성하고 소프트웨어가 연구를 가능하게 하는 방식에 대한 교차 코퍼스 분석

요약

과학적 지식과 소프트웨어 간의 상호작용을 분석하기 위해 World of Code와 Semantic Scholar 등을 연결한 대규모 교차 코퍼스 그래프를 구축했습니다. 연구 결과, 문헌은 재현성 도구를 통해 소프트웨어에 영향을 미치고, 소프트웨어는 머신러닝 인프라를 통해 과학 발전을 뒷받침하는 상호 보완적 관계를 보입니다.

핵심 포인트

과학-소프트웨어 공급망(S3C) 관점의 데이터 연결 시도
문헌은 재현성 및 패키징 계층을 통해 소프트웨어에 영향
소프트웨어는 ML 및 데이터 과학 인프라를 통해 과학에 기여
의존성 재사용과 인용 횟수 간의 낮은 상관관계 확인
측정 방식에 따라 재사용-인용 결합의 신뢰도가 달라짐을 경고

소프트웨어와 과학적 지식은 함께 진화하지만, 이들은 서로 거의 소통하지 않는 별개의 코퍼스(corpora)로 분류되어 있습니다. 우리는 World of Code(공개 버전 관리 이력의 거의 완전한 미러)를 Semantic Scholar 및 OpenAlex와 연결하여 8가지 관계 유형(논문-소프트웨어 언급, 소프트웨어-논문 인용, 소프트웨어 의존성, 저자 관계, 소속 관계, 그리고 식별자 연결)에 걸친 6,980만 개의 엣지(edges)로 구성된 유형화된 교차 코퍼스 그래프를 통해 전 지구적 규모로 이 둘을 연결합니다. 18,247개의 큐레이션된 과학 저장소(repositories)를 기반으로, 우리는 두 가지 상호적인 질문을 던집니다: 과학이 소프트웨어에 미치는 영향은 무엇이며, 소프트웨어가 과학에 미치는 영향은 무엇인가? 이러한 과학-소프트웨어 공급망 (Science-Software Supply Chain, S3C) 관점이 실행 가능한지 테스트하기 위해, 우리는 확정적인 측정을 주장하기보다는 기본적인 조사를 수행합니다. 두 방향은 서로 다르면서도 상호 보완적인 계층을 조명하는 것으로 보입니다. 문헌이 소프트웨어에 미치는 영향은 재현성 및 패키징 계층(nf-core, Nextflow, Bioconda)과 서열 분석(sequence-analysis) 도구들이 주도하는 반면, 소프트웨어가 과학으로 역으로 미치는 영향은 주로 보이지 않는 머신러닝(machine-learning) 및 데이터 과학 인프라 계층(PyTorch, seaborn, NLTK)에 의해 대리됩니다. 논문 이름이 직접 소프트웨어를 언급하는 채널은 순위를 매기기에는 너무 희소합니다. 인간이 큐레이션한 골드 벤치마크(gold benchmark)에 따르면 범위 내 65개 사례 중 단 하나도 연결되지 않았습니다. 의존성 재사용(Dependency reuse)은 대리 지표로 사용되며, 이는 인용 횟수 및 스타(stars) 수와는 기껏해야 약하게 결합되어 있습니다 (Spearman rho=0.36). 우리의 가장 주의 깊게 살펴봐야 할 발견은 측정 자체에 관한 것입니다: 저장소를 인용 횟수와 쌍을 맺는 두 가지 합리적인 방식(저장소를 명시하는 논문을 통한 방식(n=137, rho=0.05, 신뢰 구간이 0을 포함함) vs 저장소가 스스로 선언한 DOI를 통한 방식(n=1,067, rho=0.13, CI [0.07, 0.19]))에 따라 재사용-인용 결합의 부호와 신뢰도가 뒤바뀝니다. 이처럼 연결이 희소한 상황에서는 헤드라인 상관관계의 부호가 어떤 간극을 허용하느냐에 따라 달라지므로, 우리는 두 가지 모두를 보고하며 강력한 디커플링(decoupling) 주장을 자제합니다.

AI 자동 생성 콘텐츠

원문 바로가기

과학과 소프트웨어의 상호 영향: 연구가 소프트웨어를 형성하고 소프트웨어가 연구를 가능하게 하는 방식에 대한 교차 코퍼스 분석

요약

핵심 포인트

댓글