본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 11:26

코드 세계의 포크 제거: 플랫폼 그래프가 포착하지 못하는 교차 포지(Cross-Forge) 포크 패밀리를 복구하는 프로젝트-출처 맵

요약

World of Code(WoC) 데이터의 정확성을 높이기 위해 플랫폼 그래프가 포착하지 못하는 교차 포지(Cross-Forge) 포크 관계를 복구하는 p2PFull 맵을 공개합니다. 허브 노드 스타 인코딩과 클러스터링 기법을 사용하여 과도한 병합을 방지하고 정교한 포크 제거를 수행했습니다.

핵심 포인트

  • p2PFull 맵을 통해 플랫폼 그래프가 놓치는 다중 포지 관계 복구
  • 허브 노드 스타 인코딩 및 Louvain 클러스터링 적용
  • 과도한 병합을 방지하기 위한 캡 변형(cap250/cap500) 기법 사용
  • GitHub 선언 포크 그래프와 99.01%의 높은 일치율 검증
  • 갱신된 포크 제외 목록 및 분리된 포크 인벤토리 공개

포크(Forks)는 git 히스토리를 공유하므로, 하나의 커밋이 여러 저장소(repositories)에 나타나게 되며, 이로 인해 원시 저장소(raw repositories)를 대상으로 한 확산 또는 인기도 기반 측정치는 수십 배 이상 부풀려집니다. 우리는 World of Code (WoC) 버전 V2604를 위한 큐레이션된 포크 제거(deforking) 맵인 p2PFull을 공개합니다. 이는 허브 노드 스타 인코딩(hub-node star encoding)과 병렬 Louvain 클러스터링(Louvain clustering), 그리고 메가 클러스터(mega-cluster) 크기를 제한하는 캡 변형(capped variants, cap250/cap500)을 통해 전역 공유 커밋 관계(5,179만 개의 공유 커밋 그룹)로부터 구축되었으며, 모든 원시 저장소 p를 해당 저장소가 속한 포크 제거된 프로젝트 P로 통합합니다. 단순한 공유 히스토리 합집합 방식은 과도한 병합(over-merges)을 초래합니다. 즉, 프로젝트 그래프가 서로 관련 없는 소프트웨어를 거대한 클러스터로 용접해 버리는데(가장 큰 미제한 클러스터는 861,948개의 저장소이며, 최대 267,200개에 달하는 공유 커밋 그룹에 의해 연결됨), 이는 저자 식별 그래프(author-identity graphs)가 발생하는 구조적 이유와 동일합니다. 저렴한 크기 제한(size cap)은 보일러플레이트 허브(boilerplate-hub) 연결을 제거합니다. 유사한 저자 메가 클러스터를 해체했던 컷(cut)인 구조적 브리지 진단(structural-bridge diagnostic)을 여기서 실행하였으나 의도적으로 적용하지는 않았습니다. 그 결과, 캡 적용 후의 잔여물은 컷에 대해 견고한 실제 벤더링된 히스토리(vendored history)임을 보여주었기에 이를 그대로 유지했습니다. 우리는 GHArchive ForkEvents로부터 재구성된 GitHub의 선언된 포크 그래프를 대상으로 맵을 검증하였으며, 두 저장소 모두 WoC에 포함되어 있다는 조건 하에 99.01%의 엣지(edge) 일치율을 확인했습니다. 불일치는 두 가지 클래스로 분류됩니다: 하나는 완전성(completeness)의 부산물(GitHub은 주장하지만 WoC가 아직 수집하지 않은 엣지)이며, 다른 하나는 본 연구의 핵심 기여인 GitHub의 플랫폼 그래프가 표현할 수 없는 WoC 전용 포크 패밀리(fork families)로, 여기에는 5.41%의 다중 포지(multi-forge) 패밀리와 포크 루트가 GitHub에 있지 않은 1.51%의 패밀리가 포함됩니다. 추가적으로 우리는 갱신된 포크 제외 목록(134.1M 개의 자식, GHTorrent 시대의 3,950만 개보다 3.4배 많음)과 분리된 포크 인벤토리(detached-fork inventory; 455,550개의 하드 분리 엣지, 240,441개의 실제 독립적 기원)를 공개합니다. 모든 아티팩트는 WoC V2604 컬렉션에 키가 지정된, 자체 포함된 독립 호스팅 복제 패키지입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0