arXiv논문2026. 06. 02. 10:35

GitHub Copilot과 개발자 생산성: 관찰적 용량-반응 분석

요약

Microsoft 엔지니어 16,223명의 데이터를 활용하여 GitHub Copilot이 실제 개발 생산성에 미치는 영향을 분석한 연구입니다. 고정 효과 모델을 통해 개인차와 작업량 변수를 통제한 결과, Copilot 사용 시 PR 완료율이 최대 40.5% 증가함을 입증했습니다.

핵심 포인트

GitHub Copilot 사용 시 PR 완료율이 최대 40.5% 증가
엔지니어 개인의 기술 차이 및 주간 작업량 변수 통제
사용량이 높을수록 생산성이 증가하나 수익 체감 현상 존재
7가지 강건성 테스트를 통해 도구 특이적 효율성 입증

GitHub Copilot (GHCP)이 엔지니어의 생산성을 높이는 것일까요, 아니면 GHCP를 더 많이 사용하는 엔지니어가 그렇지 않은 엔지니어와 본질적으로 다른 것일까요? 또한 단일 엔지니어 내에서도, GHCP 사용량이 많은 주(week)가 단순히 모든 작업량이 늘어난 바쁜 주일 뿐일까요? 우리는 Microsoft의 Cloud+AI 조직에 속한 16,223명의 소프트웨어 엔지니어로부터 얻은 43주간의 데이터를 사용하여 이러한 질문들을 연구합니다. 엔지니어 고정 효과 (Engineer fixed effects)를 통해 각 엔지니어를 다른 엔지니어와 비교하는 대신 자기 자신과 비교함으로써 첫 번째 우려 사항을 해결하며, 이를 통해 기술, 역할 및 팀의 시간 불변적 차이를 제거합니다. 그다음, 능동적 코딩 시간 (Active coding time)과 브라우저 사용 시간 (Browser time)을 양방향 고정 효과 (Two-way fixed effects)를 가진 포아송 의사 최대 우도 (Poisson Pseudo-Maximum Likelihood, PPML) 모델에 투입하여, GHCP 사용량이 많은 주가 높은 노력(effort)이 투입된 주와 일치할 수 있다는 더 어려운 엔지니어 내부의 교란 요인 (Within-engineer confound)을 해결합니다. 이는 우리의 추정 대상 (Estimand)을 효율성 효과 (Efficiency effect), 즉 동일한 수준의 코딩 시간 대비 더 많은 풀 리퀘스트 (Pull requests, PRs)를 완료하는 것으로 정의합니다. 측정된 개발 노력이 일정하다고 가정할 때, 엔지니어들은 GHCP 사용량이 전혀 없는 주와 비교하여 사용량이 가장 많은 주에 40.5% 더 많은 PR을 완료하는 것으로 추정됩니다. 이 기울기는 단조적(monotonic)이며, 높은 강도에서는 수익 체감 (Diminishing returns) 현상이 나타납니다. 일곱 가지의 강건성 (Robustness) 및 허위 검증 (Falsification) 테스트는 남아있는 그럴듯한 대안적 설명들(코딩 외 AI 참여, 팀 수준의 충격, 주간 내 작업 재할당, 주간 간 오염, PR을 더 작은 단위로 쪼개기, 더 쉬운 작업 유형으로의 전환, 그리고 처치(treatment)를 어떻게 조작화하느냐에 대한 민감도)을 대상으로 합니다. 명시적으로 기술된 조건부 독립 가정 (Conditional-independence assumption) 하에, 엔지니어 내부 설계 (Within-engineer design)는 일곱 가지 강건성 테스트 모두와 일치하는 도구 특이적 효율성 효과 (Tool-specific efficiency effect)를 추정합니다.

AI 자동 생성 콘텐츠

원문 바로가기

GitHub Copilot과 개발자 생산성: 관찰적 용량-반응 분석

요약

핵심 포인트

댓글