arXiv논문2026. 06. 23. 13:23

관문의 습관화: AI 에이전트 코드에 대한 인간 검토의 승인율 상승 및 검토 강도 저하

요약

AI 코딩 에이전트가 제출한 PR에 대해 인간 검토자들이 시간이 지남에 따라 검토 강도를 낮추고 승인율을 높이는 현상을 분석한 연구입니다. 리뷰어의 인라인 코멘트 양은 줄고 대기 시간은 늘어나는 등, 능동적 검토 대신 반사적 습관화가 나타나고 있음을 시사합니다.

핵심 포인트

AI 에이전트 생성 코드의 승인율이 7개월간 30.1%에서 36.8%로 상승
인라인 코멘트 양은 22% 감소하며 검토 강도가 약화됨
리뷰 지연 시간은 오히려 3.5배 증가하여 능동적 검사 시간 감소를 뒷받침
단순 신뢰 조정을 넘어 업무량에 따른 반사적 습관화 현상 관찰

AI 코딩 에이전트(예: GitHub Copilot, Devin, OpenAI Codex, Cursor)가 오픈 소스 저장소에 대규모로 풀 리퀘스트(Pull Request, PR)를 제출함에 따라, 핵심적인 질문이 제기됩니다. 즉, 인간 검토자들이 시간이 지남에 따라 AI가 생성한 코드에 대한 검토 강도(Scrutiny)를 점진적으로 낮추는가 하는 점입니다. 우리는 AIDev 데이터셋을 사용하여 종단적 리뷰어 내 분석(longitudinal within-reviewer analysis)을 수행하였으며, 7개월의 관찰 기간 동안 총 11,429건의 리뷰를 제출한 400명의 반복 리뷰어를 대상으로 연구했습니다. 각 리뷰어의 초기 및 후기 리뷰 에피소드를 비교한 결과, 승인율(Approval rate)이 30.1%에서 36.8%로 인구 집단 수준의 변화를 보임을 관찰했습니다 (쌍체 변화에 대해 Wilcoxon 부호 순위 검정 결과 p < 10^{-6}). 리뷰어 내 경험 분위수(decile)별로 통합했을 때, 첫 번째 분위수에서 열 번째 분위수까지의 누적 격차는 +14.5%p에 달합니다. 이러한 변화는 경험에 의해 주도되며(달력상의 시간을 통제한 후에도 지속됨), 에이전트 특이적이며(동일 기간 동안 인간의 PR 승인율은 감소함), PR 난이도로는 설명되지 않습니다(PR 크기의 중앙값은 일정함). 그러나 리뷰 지연 시간(Review latency)은 감소하는 대신 오히려 증가(+3.5배)하는 반면, 인라인 코멘트(Inline comment) 양은 감소(-22%, p=0.0014)했습니다. 이는 리뷰어들이 대기열(Queue)에서 더 많은 시간을 보내지만, 코드를 능동적으로 검사하는 데 쓰는 시간은 줄어들고 있음을 시사합니다. 승인율의 상승, 코멘트 노력의 감소, 그리고 대기 시간의 증가가 결합된 이 현상은 단순한 합리적 신뢰 조정(Rational trust calibration)보다는 증가하는 업무량 하에서의 반사적 습관화(Reflexive habituation)와 가장 일치합니다.

AI 자동 생성 콘텐츠

원문 바로가기

관문의 습관화: AI 에이전트 코드에 대한 인간 검토의 승인율 상승 및 검토 강도 저하

요약

핵심 포인트

댓글