코드 리뷰는 한때 권력 게임이었지만, AI가 그것을 끝냈다.

수년 동안, 풀 리퀘스트(pull request)는 정확성만큼이나 정치적인 문제였다. 무언가가 조용히 변했고 - 우리는 그 대가를 물어야 한다.

원문 기사: Code Review Used to Be a Power Game. AI Ended It. Nobody Noticed. Oleg Koval 작성

47개의 댓글이 달린 풀 리퀘스트를 상상해 보라.

그중 절반은 변수 이름에 관한 것이다. 세 개는 한 선임 엔지니어의 머릿속에만 존재하는 코딩 표준을 언급한다. 그 중 하나 - 아래쪽에 묻혀 있는 곳 - 는 전체 접근 방식이 잘못되었으며 다시 작성되어야 한다고 제안한다. 이 기능을 구현하는 데 2주를 보낸 중간 레벨 개발자는 자신이 그만둬야 할지 궁금해하며 화면을 응시하고 있다.

이제 같은 팀의 상황을 18개월 후에 상상해 보자. PR은 먼저 AI 에이전트를 거친다. 제안들이 어떤 인간도 diff(차이점)를 보기 전에 도착한다. 작성자는 그것들을 클릭하며 일부는 수락하고, 다른 것은 거절한 후, 다시 푸시한다. 인간 리뷰어가 나타났을 때, 대화는 더 짧아졌다. 아무도 방어적이지 않다. 선임 엔지니어는 여전히 댓글을 남기지만 - 왠지 모르게 다르게 와닿는다.

무엇이 변했을까? 아무도 회의를 소집하지 않았다. 발표도 없었다. 그저 조용해졌다.

댓글 스레드는 결코 코드에 관한 것이 아니었다
대부분의 엔지니어링 회고가 놓치는 점은 이것이다: 코드 리뷰는 순수하게 기술적인 관행이 아니었다.

그것은 영역이었다.

풀 리퀘스트는 연차를 과시하는 곳이었다.

연구는 10년 넘게 이 점을 기록해 왔습니다. Microsoft의 Bacchelli와 Bird가 수행한 2013년의 기념비적인 연구는 — 인터뷰, 관찰, 그리고 여러 팀에 걸친 수백 개의 분류된 리뷰 코멘트를 기반으로 — 코드 리뷰가 "예상보다 결함(defects)에 관한 것이 아니다"라는 사실을 발견했습니다. 대신 코드 리뷰는 지식 전달 (knowledge transfer), 팀 인지 (team awareness), 관계 신호 전달 (relationship signaling)과 같은 사회적 기능을 수행합니다. 마찬가지로 Microsoft Research의 Czerwonka와 Greiler가 진행한 2015년 후속 연구는 "코드 리뷰의 사회적 측면을 무시할 수 없다"라고 단도직입적으로 결론지었으며, 리뷰가 원래 찾아내기로 되어 있는 버그를 놓치는 경우가 많다고 지적했습니다.

이것이 시사하는 바는 불편합니다. 우리는 결함 탐지를 중심으로 관행을 구축했지만, 실제로 구축한 것은 지위 의례 (status ritual)였습니다.

이는 소프트웨어에만 국한된 현상이 아닙니다. 도제 구조 (apprenticeship structures), 지식 게이트키핑 (knowledge gatekeeping), 그리고 동료 평가 (peer evaluation)를 가진 모든 직업은 동일한 역학 관계를 발전시킵니다. 법률 회사도 그렇고, 학술적 동료 검토 (academic peer review)도 그렇고, 건축 사무소도 그렇습니다. 매체는 변해도 권력 구조는 변하지 않습니다.

소프트웨어 분야에서는 풀 리퀘스트 (PR)가 그 구조가 매일, 대규모로 스스로를 재생산하는 의례적 공간이 되었습니다.

투기장(The Arena)의 해체
AI 에이전트가 풀 리퀘스트를 사전 리뷰할 때, 구조적인 변화가 일어납니다.

제안은 자아 (ego)가 개입되지 않은 채 전달됩니다. 코멘트 뒤에 커리어가 걸려 있지 않고, 관리해야 할 관계도 없으며, 과시할 지위도 없습니다. 작성자는 제안을 읽고, 동의하거나 반대하며, 다음 단계로 넘어갑니다. 제안을 거절하는 데 따르는 사회적 비용은 제로(0)로 떨어집니다. Copilot의 코멘트를 무시한다고 해서 누구의 기분도 상하지 않습니다.

리뷰 프로세스에서 정치적 긴장감이 빠져나갑니다. 주니어 개발자들이 풀 리퀘스트를 올리기 전, 이미 쏟아질 공격을 예상하며 취하도록 배웠던 방어적인 자세 (defensive crouch)는 불필요하게 느껴지기 시작합니다.

수치들이 이를 반영하고 있지만, 가장 많이 인용되는 수치들이 역설적으로 가장 흥미롭지 않은 수치이기도 합니다. 도구 도입은 초기에 이미 포화 상태에 이르렀습니다. 49,000명 이상의 개발자를 대상으로 한 Stack Overflow의 설문 조사에 따르면, 2025년에는 개발자의 84%가 AI 도구를 사용 중이거나 사용할 계획이라고 답했으며(전년도 76%에서 상승), 51%는 매일 도구를 사용하고 있습니다. 그 곡선은 이미 평탄해졌습니다. 거의 모든 사람이 이미 무언가를 사용하고 있습니다. AI 코드 리뷰 (AI code review)를 사용하는 조직들은 리뷰 주기가 최대 40%까지 단축되었다고 보고하고 있습니다. 한때 PR (Pull Request) 프로세스를 정의했던 마찰(friction)이 압축되고 있습니다.

하지만 동일한 설문 조사는 낙관론자들이 간과하는 경고를 담고 있습니다. 사용량이 증가하는 와중에도 신뢰도는 무너지고 있다는 점입니다. 현재 AI 출력물의 정확성을 신뢰한다고 답한 개발자는 29%에 불과하며, 이는 1년 전 40%에서 하락한 수치입니다. 개발자들은 도구에 대한 믿음은 줄어들면서도 도구에 더 많이 의존하고 있습니다. 이는 나중에 다시 표면화될 것이기에 주목할 만한 긴장 상태입니다. 2026년 1월, Sonar의 State of Code 설문 조사는 이 문제를 더욱 날카롭게 지적했습니다. 개발자의 96%가 AI가 생성한 출력물을 완전히 신뢰하지 않는다고 답했으며, 커밋 (commit) 하기 전에 이를 항상 검증하는 비율은 절반에도 미치지 못했습니다.

Source: Stack Overflow Developer Survey 2025 (49,000+ respondents)

출처: Stack Overflow Developer Survey 2025 (49,000명 이상의 응답자)

하지만 도입은 이야기의 지루한 절반일 뿐입니다. 흥미로운 나머지 절반은 이 도구들이 무엇이 되었는가 하는 점입니다. 2024년까지 AI는 주로 개발자가 이미 입력하고 있던 코드 라인을 자동 완성 (autocomplete) 하는 수준이었습니다. 2025년과 2026년에 접어들며 모델들은 더욱 유능해지고, 저렴해지며, 마침내 에이전트적 (agentic) 성격을 갖추며 성숙해졌습니다. 그리고 코드를 제안하는 수준을 넘어 전체 변경 사항을 작성하고 리뷰하는 단계로 넘어갔습니다. 이것이 진정한 2026년의 변곡점이며, 이는 도입 차트에는 나타나지 않습니다. 대신, 더 이상 인간이 직접 타이핑하지 않는 코드의 양에서 나타납니다. 2026년 초 기준으로 커밋된 코드의 42%가 AI에 의해 작성되었으며, 2027년에는 65%에 도달할 궤도에 올라 있습니다.

Source: Sonar State of Code Developer Survey, January 2026 (1,100+ developers; the 2027 figure is Sonar's own projection)<br>

출처: Sonar State of Code Developer Survey, 2026년 1월 (개발자 1,100명 이상; 2027년 수치는 Sonar의 자체 전망치)

질문은 조용히 "AI를 사용하는가"에서 "이 중 실제로 당신이 작성한 부분은 얼마나 되는가"로 바뀌었습니다.

그리고 속도 향상 또한 실재합니다. 2022년 GitHub 연구에 따르면, 개발자들은 Copilot을 사용할 때 작업을 55% 더 빠르게 완료했습니다. Copilot이 없을 때 161분이 걸렸다면, 사용할 때는 71분이 걸렸습니다.

_Source: GitHub Copilot research study, 2022_

출처: GitHub Copilot 연구 조사, 2022

하지만 그 헤드라인에는 이제 별표(*)를 붙여야 마땅합니다. METR가 실시한 2025년 무작위 대조 시험 (Randomized Controlled Trial)에 따르면, 자신이 잘 아는 코드베이스(Codebase)에서 작업하는 숙련된 개발자들에게는 정반대의 결과가 나타났습니다. 동일한 개발자들이 AI 도구가 자신들의 속도를 높여주었다고 믿었음에도 불구하고, 실제로는 AI 도구로 인해 작업 속도가 19% 더 느려졌습니다. 체감하는 가속도와 측정된 가속도는 항상 일치하지 않으며, 이 격차는 당신이 그 느낌을 신뢰하기 시작하는 순간 매우 중요해집니다.

그리고 이것은 진정으로 좋은 일입니다. 다음 내용으로 넘어가기 전에 이 점을 분명히 하고 싶습니다. 왜냐하면 다음에 이어질 내용은 불편하기 때문입니다.

적대적인 리뷰어들에 의해 일상적으로 입을 막혔던 개발자들은 이제 코드의 가치(Merit)만으로 병합(Merge)될 수 있습니다. 왜 틀렸는지에 대한 설명도 듣지 못한 채 자신의 접근 방식이 틀렸다는 말을 들었던 사람들은, 이제 대안을 함께 고민할 수 있는 인내심 있고 비판적이지 않은 대화 상대(Interlocutor)를 갖게 되었습니다. 품질보다는 권력 문제인 경우가 많았던 "배포하기 전에 X의 승인을 기다려야 한다"라는 차단 요소(Blocker)도 줄어듭니다.

이 안도감은 실재합니다. 이를 과소평가해서는 안 됩니다.

독성 있는 리뷰어가 사라진 세 곳
이 안도감이 문제가 해결되었음을 의미한다고 가정하는 것은 실수입니다.

독성 리뷰어는 은퇴하지 않았습니다. 경기장이 바뀐 것이지, 사람이 바뀐 것이 아닙니다. 그리고 자신의 전문적 정체성을 그 경기장에서 지배하는 것에 두고 살았던 사람들은 적응했습니다. 혹은 새로운 경기장을 찾았고, 여전히 같은 본능을 가지고 있습니다.

이들을 '이주자(The Migrator)'라고 부릅니다. 게이트키핑의 장소가 옮겨갔습니다. 이제는 AI 출력물에 관한 것입니다. “에이전트가 진짜 문제를 놓쳤어.” “이 프롬프트는 우리가 여기에서 하는 방식이 아니야.” “모델이 제안하는 것을 그냥 받아들일 순 없어.” 예전에 PR 댓글 스레드에서 권세를 휘두르던 바로 그 사람이 이제 어떤 AI 도구가 적절한지, 누구의 프롬프트가 올바른지에 대해 이야기하며 권세를 휘두릅니다. 그리고 팀의 AI 출력이 존재하는(다시 말하지만 주로 그들 머릿속에만 존재하는) 어떤 표준을 충족하는지에 대해서도 그렇습니다.

저는 이것이 실시간으로 벌어지는 것을 지켜봤습니다. 표면적인 영역은 줄었지만, 행동 양식은 그렇지 않았습니다.

'노출된 자(The Exposed)'가 있습니다. 리뷰의 경기장을 제거하자, 근본적인 기술적 기여가 이전에는 볼 수 없었던 방식으로 드러납니다. 어떤 엔지니어들에게는 이 불편함이 명료하게 다가옵니다. 이는 그들을 새로운 기술을 쌓고, 다르게 참여하며, 진정으로 가치를 더할 방법을 찾도록 밀어붙입니다. 하지만 다른 사람들에게는 경기장 자체가 가치였음이 밝혀집니다. 양과 공격성을 통해 리뷰에서 지배력을 발휘했고, 공격적인 게이트키핑에 자신의 명성을 쌓았던 엔지니어는 2년 동안 의미 있는 결과물을 내놓지 못했습니다. 숨을 곳이 되는 의식(ritual)이 사라지자, 그 격차를 가리기 더 어려워졌습니다.

'순수주의자(The Purist)'가 있습니다. 세 번째 경로는 새로운 질서를 완전히 거부하고 그 거부 자체에서 정체성을 얻는 것입니다. 이 엔지니어들은 '여전히 모든 줄을 읽는다', '인간 리뷰는 대체 불가능하다'고 주장하며, AI가 가능하게 하는 허술함에 맞서는 마지막 방어선으로 자신들을 자리매김합니다.

때로는 이것이 진실되고 가치 있습니다. 자동화 도구가 놓치는 세심한 인간의 검토가 포착하는 실제적인 것들이 존재하기 때문입니다. 하지만 때로는 그것은 새로운 옷을 입은 똑같은 자아도취일 뿐이며, 그 옷차림은

이 세 가지 경로는 깔끔하게 분리되어 있지 않습니다. 실제 사람들은 그 사이를 오갑니다. 핵심은 그 어떤 경로에서도 근본적인 성향이 사라지지는 않는다는 점입니다.

우리가 묻고 있는 것이 아닌 것
어떤 마찰은 분명히 낭비였습니다. 명백하게 말이죠.

하지만 어떤 마찰은 그렇지 않았습니다.

코드 리뷰에서의 의견 불일치는 실제적인 문제들을 포착해냈습니다. 이는 적대적인 검토자가 옳았기 때문이 아니라, 결정을 방어하고 명확하게 설명해야 한다는 압박감이 종종 그 결정이 틀렸음을 드러내곤 했기 때문입니다. 적대적인 형식은 그 독성에도 불구하고, 하나의 강제 함수 (forcing function) 역할을 했습니다. 당신은 자신이 왜 그런 선택을 했는지 반드시 알고 있어야만 했습니다.

여기서 데이터는 다른 방향으로 흥미로워집니다. 2억 1,100만 줄의 코드를 분석한 GitClear의 2025년 분석은 과거에 추측에 불과했던 것들에 실제 수치를 부여했습니다. 코드 churn (code churn) — 커밋된 후 2주 이내에 되돌려지거나 다시 작성된 새 코드의 비율 — 은 2020년 5.5%에서 2024년 7.9%로 상승했습니다. 같은 기간 동안, 복사해서 붙여넣은 (copy-pasted) 코드가 처음으로 리팩터링 (refactored) 된 코드를 추월했습니다. 중복된 블록은 약 8배 증가한 반면, 신중하게 "이동된" (리팩터링된) 라인의 비율은 24.1%에서 9.5%로 급락했습니다. 더 많은 코드가 생산되고 있습니다. 하지만 그중 더 많은 양이 즉각적으로 수정되고 있으며, 정리되는 양은 줄어들고 있습니다. 리뷰에서의 마찰이 줄어들고 AI가 더 빠르게 코드를 작성할 때, 오류 표면 (error surface)은 그에 따라 줄어드는 것이 아니라 오히려 확장됩니다.

_Source: GitClear - AI Copilot Code Quality report, 2025 (211M lines analyzed)_<br>

출처: GitClear - AI Copilot Code Quality report, 2025 (2억 1,100만 줄 분석)

코드 리뷰는 한때 권력 게임이었지만, AI가 그것을 끝냈다.

요약

핵심 포인트

수년 동안, 풀 리퀘스트(pull request)는 정확성만큼이나 정치적인 문제였다. 무언가가 조용히 변했고 - 우리는 그 대가를 물어야 한다.

댓글