본문으로 건너뛰기

© 2026 Molayo

GitHub요약2026. 05. 21. 08:13

SAILResearch/AI_Teammates_in_SE3

요약

MSR 2026 Mining Challenge를 위해 공개된 이 저장소는 자율 코딩 에이전트가 소프트웨어 공학(SE 3.0)을 어떻게 변화시키고 있는지 연구한 논문의 재현 패키지입니다. AIDev 데이터셋을 통해 OpenAI Codex, Devin, GitHub Copilot, Cursor, Claude Code 등 주요 코딩 에이전트의 활동 데이터를 분석하고 제공합니다.

핵심 포인트

  • MSR 2026 Mining Challenge 개최 및 관련 논문/데이터셋 공개
  • 자율 코딩 에이전트의 도메인 전문화에 따른 언어 선호도 차이 확인
  • TypeScript가 모든 에이전트에서 가장 흔하게 사용되는 언어로 나타남
  • OpenAI Codex는 Python 사용에 있어 뚜렷한 편향을 보임
  • HuggingFace를 통해 최신 트렌드가 반영된 AIDev 데이터셋 제공

📢 저희는 MSR 2026 Mining Challenge (브라질 리우데자네이루에서 개최되는 ICSE 2026과 공동 개최)를 주최합니다. 상세 내용 및 제출처:

논문 (Paper): https://arxiv.org/abs/2507.15003
HuggingFace 데이터셋 (Dataset): https://huggingface.co/datasets/hao-li/AIDev
예제 노트북 (Example Notebooks):

설명노트북 링크Colab에서 열기
기본 사용법load_AIDev.ipynb
...

⚠️ 업데이트 (2025년 8월 10일): 데이터셋이 2025년 8월 1일까지의 데이터를 포함하도록 갱신되었으며, 이를 통해 코딩 에이전트 (Coding Agents)의 가장 최신 트렌드를 반영하도록 했습니다.

이 저장소(Repository)는 "The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping SE" 논문의 재현 패키지 (Replication Package)를 포함하고 있습니다. GitHub 저장소의 용량 제한으로 인해 전체 데이터셋은 여기에 포함되지 않았습니다. 전체 데이터셋은 HuggingFace에서 확인하실 수 있습니다: https://huggingface.co/datasets/hao-li/AIDev

AIDev-pop의 원시 데이터 (Raw Data)에 관심이 있으시다면 여기서 찾으실 수 있습니다: https://drive.google.com/file/d/1l0_RjS7ZT0Y27V3mv0oJK-jfeRkhq5l5/view?usp=drive_link

AIDev 데이터셋의 개요는 다음과 같습니다:

#PR#개발자 (#Developer)#저장소 (#Repo)
OpenAI Codex814,52261,65384,704
Devin29,744NA4,747
GitHub Copilot50,447NA14,492
Cursor32,9419,65812,699
Claude Code5,1371,6431,915
합계 (Total)932,79172,189116,211
├── AIDev-pop/ # AIDev의 AIDev-pop 하위 집합 (subset)
├── analysis/ # 분석 스크립트 및 Jupyter 노트북
├── figs/ # 생성된 그림 (figures) 및 결과
...

필요한 종속성 (Dependencies) 설치:

pip install -r requirements.txt

분석의 주요 결과는 AIDev 데이터셋의 하위 집합인 AIDev-pop을 기반으로 합니다.

#PR#개발자 (#Developer)#저장소 (#Repo)
OpenAI Codex21,7991,2841,248
Devin4,827NA288
GitHub Copilot4,970NA1,012
Cursor1,541363327
Claude Code459236213
합계 (Total)33,5961,7962,807

자율 코딩 에이전트 (Autonomous Coding Agents)는 그들의 역량 내 도메인 전문화를 반영하는 뚜렷한 언어 선호도를 나타냅니다.
TypeScript는 모든 에이전트에 걸쳐 가장 흔한 언어이며, 이는 AI 지원 개발 (AI-assisted development)에서의 인기를 강조합니다.
하지만 주목할 만한 차이점도 나타납니다: OpenAI Codex는 Python에 뚜렷한 편향을 보이는 반면, GitHub Copilot은 C#을 크게 선호하며, 이는 아마도 각 에이전트의 통합 방식과 사용자 기반을 반영하는 것으로 보입니다.

만약 귀하의 연구에서 이 데이터셋이나 코드를 사용하신다면, 저희의 논문을 인용해 주세요:

@misc{li2025aiteammates,
title={The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering},
author={Hao Li and Haoxiang Zhang and Ahmed E. Hassan},
...

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub Codex tools의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0