SAILResearch/AI_Teammates_in_SE3
요약
MSR 2026 Mining Challenge를 위해 공개된 이 저장소는 자율 코딩 에이전트가 소프트웨어 공학(SE 3.0)을 어떻게 변화시키고 있는지 연구한 논문의 재현 패키지입니다. AIDev 데이터셋을 통해 OpenAI Codex, Devin, GitHub Copilot, Cursor, Claude Code 등 주요 코딩 에이전트의 활동 데이터를 분석하고 제공합니다.
핵심 포인트
- MSR 2026 Mining Challenge 개최 및 관련 논문/데이터셋 공개
- 자율 코딩 에이전트의 도메인 전문화에 따른 언어 선호도 차이 확인
- TypeScript가 모든 에이전트에서 가장 흔하게 사용되는 언어로 나타남
- OpenAI Codex는 Python 사용에 있어 뚜렷한 편향을 보임
- HuggingFace를 통해 최신 트렌드가 반영된 AIDev 데이터셋 제공
📢 저희는 MSR 2026 Mining Challenge (브라질 리우데자네이루에서 개최되는 ICSE 2026과 공동 개최)를 주최합니다. 상세 내용 및 제출처:
논문 (Paper): https://arxiv.org/abs/2507.15003
HuggingFace 데이터셋 (Dataset): https://huggingface.co/datasets/hao-li/AIDev
예제 노트북 (Example Notebooks):
| 설명 | 노트북 링크 | Colab에서 열기 |
|---|---|---|
| 기본 사용법 | load_AIDev.ipynb | |
| ... |
⚠️ 업데이트 (2025년 8월 10일): 데이터셋이 2025년 8월 1일까지의 데이터를 포함하도록 갱신되었으며, 이를 통해 코딩 에이전트 (Coding Agents)의 가장 최신 트렌드를 반영하도록 했습니다.
이 저장소(Repository)는 "The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping SE" 논문의 재현 패키지 (Replication Package)를 포함하고 있습니다. GitHub 저장소의 용량 제한으로 인해 전체 데이터셋은 여기에 포함되지 않았습니다. 전체 데이터셋은 HuggingFace에서 확인하실 수 있습니다: https://huggingface.co/datasets/hao-li/AIDev
AIDev-pop의 원시 데이터 (Raw Data)에 관심이 있으시다면 여기서 찾으실 수 있습니다: https://drive.google.com/file/d/1l0_RjS7ZT0Y27V3mv0oJK-jfeRkhq5l5/view?usp=drive_link
AIDev 데이터셋의 개요는 다음과 같습니다:
| #PR | #개발자 (#Developer) | #저장소 (#Repo) | |
|---|---|---|---|
OpenAI Codex | 814,522 | 61,653 | 84,704 |
Devin | 29,744 | NA | 4,747 |
GitHub Copilot | 50,447 | NA | 14,492 |
Cursor | 32,941 | 9,658 | 12,699 |
Claude Code | 5,137 | 1,643 | 1,915 |
| 합계 (Total) | 932,791 | 72,189 | 116,211 |
├── AIDev-pop/ # AIDev의 AIDev-pop 하위 집합 (subset)
├── analysis/ # 분석 스크립트 및 Jupyter 노트북
├── figs/ # 생성된 그림 (figures) 및 결과
...
필요한 종속성 (Dependencies) 설치:
pip install -r requirements.txt
분석의 주요 결과는 AIDev 데이터셋의 하위 집합인 AIDev-pop을 기반으로 합니다.
| #PR | #개발자 (#Developer) | #저장소 (#Repo) | |
|---|---|---|---|
OpenAI Codex | 21,799 | 1,284 | 1,248 |
Devin | 4,827 | NA | 288 |
GitHub Copilot | 4,970 | NA | 1,012 |
Cursor | 1,541 | 363 | 327 |
Claude Code | 459 | 236 | 213 |
| 합계 (Total) | 33,596 | 1,796 | 2,807 |
자율 코딩 에이전트 (Autonomous Coding Agents)는 그들의 역량 내 도메인 전문화를 반영하는 뚜렷한 언어 선호도를 나타냅니다.
TypeScript는 모든 에이전트에 걸쳐 가장 흔한 언어이며, 이는 AI 지원 개발 (AI-assisted development)에서의 인기를 강조합니다.
하지만 주목할 만한 차이점도 나타납니다: OpenAI Codex는 Python에 뚜렷한 편향을 보이는 반면, GitHub Copilot은 C#을 크게 선호하며, 이는 아마도 각 에이전트의 통합 방식과 사용자 기반을 반영하는 것으로 보입니다.
만약 귀하의 연구에서 이 데이터셋이나 코드를 사용하신다면, 저희의 논문을 인용해 주세요:
@misc{li2025aiteammates,
title={The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering},
author={Hao Li and Haoxiang Zhang and Ahmed E. Hassan},
...
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Codex tools의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기