arXiv논문2026. 06. 23. 13:19

CodeXHug로 생성하기: 모델 카드에 코드 사용 패턴을 강화하기 위한 데이터셋

요약

HuggingFace의 사전 학습된 모델(PTM) 사용 패턴을 분석하기 위해 큐레이션된 데이터셋인 CodeXHug를 제안합니다. GitHub 데이터를 활용해 7,325개의 모델과 20,545개의 Python 파일을 확보하여 실제 코드 사용 사례를 제공합니다.

핵심 포인트

PTM 모델 카드의 코드 패턴 부재 문제 해결을 위한 연구
GitHub 기반의 HuggingFace PTM 코드 사용 패턴 데이터셋 구축
7,325개 모델과 20,545개 Python 파일로 구성된 데이터셋
통계적 분석 및 클러스터링을 통한 대표적 코드 패턴 추출

사전 학습된 모델 (Pre-trained models (PTMs))은 소프트웨어 엔지니어링 커뮤니티에서 점점 더 인기를 얻고 있습니다. 이들의 사용은 다양한 PTM을 수집, 저장 및 유지 관리하는 HuggingFace와 같은 모델 저장소에 의해 용이해집니다. 그러나 이러한 모델들이 실제 프로젝트에서 실제로 채택되는지는 여전히 미해결 과제로 남아 있습니다. 즉, 많은 모델이 장난감 프로젝트(toy projects)에서 사용되거나 단순히 HF 저장소의 미러(mirror)로만 사용됩니다. 또한, 사용에 관한 중요한 정보를 포함하는 대부분의 가용 모델 카드(model cards) 및 텍스트 문서에는 설명적인 코드 패턴이 포함되어 있지 않아, 초보자들의 어려움을 가중시킵니다. 따라서 우리는 프로젝트에서 PTM을 사용하고자 하는 개발자와 실무자들을 지원하기 위해 PTM과 관련된 큐레이션된 코드베이스(curated codebase)의 필요성을 인지하고 있습니다. 본 논문에서는 Github 생태계에서 활용되는 HuggingFace PTM 및 관련 코드 사용 패턴을 큐레이션한 데이터셋인 CodeXHug를 제시합니다. 최신 HF 덤프(dump)에서 시작하여, 먼저 태그와 모델 카드가 있는 PTM을 수집하기 위해 데이터 큐레이션을 수행합니다. 그 다음, 식별된 PTM의 실제 사용 사례를 찾기 위해 Github 플랫폼을 쿼리하였으며, 그 결과 7,325개의 서로 다른 모델과 20,545개의 Python 파일을 확보했습니다. CodeXHug의 구체적인 응용 사례를 입증하기 위해, 우리는 관련 코드 스니펫(code snippets)에 통계적 분석 및 클러스터링(clustering) 기술을 적용하여 특정 PTM에 대한 대표적인 코드 사용 패턴을 추출하는 데 중점을 둔 사용 시나리오를 제안합니다.

AI 자동 생성 콘텐츠

원문 바로가기

CodeXHug로 생성하기: 모델 카드에 코드 사용 패턴을 강화하기 위한 데이터셋

요약

핵심 포인트

댓글