arXiv논문2026. 06. 09. 10:53

OSS 프로젝트 내 고유 개발자 식별: 모델 제품군 연구

요약

오픈 소스 소프트웨어(OSS) 내 개발자 중복 제거를 위한 확장 가능한 파이프라인과 모델 선택 가이드를 제안합니다. LLM 지원 매칭 프로세스로 구축한 데이터셋을 활용해 다양한 ML 모델의 정밀도, 계산 비용, 에너지 소비량을 비교 분석했습니다.

핵심 포인트

OSS 커밋 메타데이터의 별칭 문제를 해결하기 위한 중복 제거 연구
LLM을 활용하여 고품질의 개발자 신원 매칭 데이터셋 생성
정밀도와 계산 비용(시간, 에너지) 간의 최적 절충안 제시
전통적 ML 모델과 LLM 기반 프로세스의 성능 벤치마크 제공

조직적 및 논리적 결합도(Organizational and logical coupling) 지표를 산출하기 위해서는 고유한 개발자를 신뢰성 있게 식별하는 과정이 필요합니다. 오픈 소스 소프트웨어(OSS)에서 커밋 메타데이터(commit metadata)는 이름과 이메일로 제한되어 있으며, 동일한 개발자가 여러 개의 별칭(alias)으로 나타날 수 있습니다. 중복 제거(de-duplication)가 이루어지지 않으면 결합도 측정 결과가 왜곡될 수 있습니다. 본 연구의 목적은 OSS 개발자 중복 제거를 위한 확장 가능하고 정확한 파이프라인을 구축하고, 정밀도(precision)와 계산 비용(computational effort) 사이의 관계를 바탕으로 모델을 선택하는 가이드를 제공하는 것입니다. 우리는 Indel 유사도(Indel similarity)를 베이스라인(baseline)으로 사용한 후, 수동 검증을 동반한 LLM 지원 매칭 프로세스(LLM-assisted matching process)를 실행하여 중복된 신원(duplicate identities)에 대한 대규모 데이터셋을 생성했습니다. 이 데이터셋을 사용하여 다양한 복잡도를 가진 전통적인 머신러닝 (ML) 모델들을 학습 및 비교하였으며, 정밀도와 더불어 학습 및 추론 시간(inference time), 에너지 소비량을 평가했습니다. 우리는 고품질의 데이터셋과 함께, 대규모 OSS 마이닝(mining) 시 어떤 솔루션이 정확도와 비용 사이에서 최적의 절충안(trade-off)을 제공하는지 명확히 하는 접근 방식의 벤치마크를 제시하고자 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

OSS 프로젝트 내 고유 개발자 식별: 모델 제품군 연구

요약

핵심 포인트

댓글