arXiv논문2026. 06. 23. 13:23

심슨의 역설을 넘어: AI 에이전트 Pull-Request 공동 저자 관계에 나타나는 교란 요인의 연쇄 작용

요약

AI 코딩 에이전트의 공동 저자(Co-authored-by) 표시와 PR 머지율 사이의 상관관계를 분석한 연구입니다. 심슨의 역설을 통해 단순 통계가 에이전트 성능을 오도할 수 있음을 밝히고, 선택 편향과 PR 구조가 미치는 영향을 입증했습니다.

핵심 포인트

단순 집계 시 AI 공동 저자 PR의 머지율이 낮아 보이나, 심슨의 역설이 존재함
에이전트 종류(Copilot, Devin 등)에 따라 데이터가 편향되어 나타남
저장소 및 커밋 횟수 통제 시 에이전트의 공동 저자 효과는 대부분 소멸함
통계적 상관관계가 인과적 이득이 아닌 선택 편향의 결과일 수 있음을 경고

5개의 AI 코딩 에이전트를 통합하여 분석했을 때, 인간의 Co-Authored-By 트레일러가 포함된 풀 리퀘스트(Pull Requests, PRs)는 순수 자율형 PR보다 머지(merge)되는 비율이 낮았습니다 (53.8% 대 79.8%). 하지만 이러한 집계된 결과는 전형적인 심슨의 역설(Simpson's Paradox)을 보여줍니다. AIDev 데이터셋의 33,596개 PR을 에이전트 정체성에 따라 계층화(stratifying)하면 결론이 뒤바뀝니다. Copilot과 Devin은 에이전트 내부적으로 큰 양(+)의 격차(+41.2 및 +33.5 pp, 모두 p<0.001)를 보이는 반면, Cursor, Claude Code, Codex는 횡단면적 95% 신뢰 구간(CIs)이 0을 포함하는 작은 효과를 보입니다. 이 역설은 전적으로 에이전트 구성에 의해 발생합니다. 데이터셋의 64.9%를 차지하는 Codex는 공동 저자 기능을 거의 사용하지 않으면서도 높은 머지율을 달성합니다. 그러나 심슨의 역설은 교란 요인(confounders) 연쇄의 첫 번째 단계일 뿐입니다. 저장소 내부(within-repo) 통제를 적용하면 Devin의 격차는 사라집니다 (+33.5에서 +1.6 pp로, p=0.73). 커밋 횟수(commit-count) 통제를 추가하면 Copilot의 저장소 내부 격차는 더욱 절반으로 줄어듭니다 (+36.2에서 +24.4 pp). 멀티 커밋(multi-commit) PR로 제한할 경우, Copilot의 저장소 내부 효과는 +4.8 pp로 소멸합니다 (p=0.59). 저장소 선택과 PR 구조를 모두 통제하면 어떤 에이전트도 명확한 공동 저자 효과를 유지하지 못합니다. 우리의 연구 결과는 계층화 없이 에이전트 통합 통계치를 보고하는 것에 대해 경고하며, 횡단면적 공동 저자 연관성이 인과적 이득의 증거라기보다는 주로 선택 편향(selection) 및 PR 구조의 인위적 결과물(artefacts)임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

심슨의 역설을 넘어: AI 에이전트 Pull-Request 공동 저자 관계에 나타나는 교란 요인의 연쇄 작용

요약

핵심 포인트

댓글