제5장 심층 분석: 당신이 포기하게 되는 이해력

“에이전트 시대의 소프트웨어 개발 (Software Development in the Agentic Era)”의 보충 문서

Mike 작성, Claude (Anthropic)와의 협업

메인 가이드의 제5장에서는 에이전트(Agents)가 기술 퇴화(Skill atrophy)를 개선하는 것이 아니라 악화시킨다고 말합니다. 즉, AI가 더 많은 일을 할수록 당신의 참여는 줄어들고, AI가 생성한 결과물을 평가할 수 있는 능력은 점점 더 떨어지게 된다는 것입니다. 이는 올바른 직관입니다. 하지만 "AI가 당신의 뇌를 부패시킨다"는 말은 이제 하나의 장르가 되었으며, 그 대부분은 과장되어 있습니다. 하나의 뇌파(EEG) 연구를 일반화하거나, 상관관계를 증거로 취급하며, 실제 실무에서 가장 중요한 부분, 즉 '손실은 도구를 어떻게 사용하는지에 따라 조건부로 발생하며, 적어도 한 가지의 개입 방법은 그 손실의 대부분을 되돌릴 수 있다는 사실을 간과하고 있습니다.

이 장에서는 메인 가이드의 주장을 증거가 뒷받침하는 범위로 좁혀 다음과 같이 정의합니다:

AI의 보조는 AI를 감독하는 데 필요한 특정 기술 — 특히 이해력(Comprehension), 코드 읽기(Code reading), 그리고 디버깅(Debugging) — 을 저하시킵니다. 하지만 이러한 저하는 AI 사용 그 자체 때문이 아니라 상호작용 패턴(Interaction pattern)에 의해 발생합니다. 손실을 유발하는 바로 그 도구가 대부분의 손실을 방지하도록 설정될 수도 있습니다. 이제 남은 질문은 참여 없는 AI 사용이 감독 능력을 손상시킬 수 있는지 여부가 아닙니다. 실제 팀에서 그 효과가 얼마나 큰지, 그리고 팀이 의도적으로 마찰(Friction)을 다시 구축할 것인지에 대한 것입니다. 왜냐하면 기본 워크플로(Default workflow) 중 그 어떤 것도 이를 대신 해주지 않기 때문입니다.

이 두 번째 문장이 이 글을 파멸론적 장르와 구분 짓는 지점입니다. 연구 결과는 "AI 사용을 중단하라"가 아닙니다. 인지적 참여(Cognitive engagement)는 도구, 워크플로, 그리고 팀의 규범에 따른 설계 변수(Design variable)이며, 현재 대부분의 기본 워크플로는 이를 고려하여 설계되지 않았다는 것입니다.

논의 영역을 세 가지 질문으로 나누어 살펴보는 것이 도움이 되며, 각 질문은 이 장의 서로 다른 부분에서 다뤄집니다:

Mechanism (메커니즘) — 기술 손실이 어떻게 발생하는가, 그리고 이것이 일반적인 인지적 오프로딩 (Cognitive Offloading)과 동일한 것인가? (Part 1.)
Trajectory (궤적) — 누구에게 영향을 미치며, 언제 나타나고, 이것이 되돌릴 수 있는가? (Part 2.)
Intervention (개입) — 생산성을 포기하지 않으면서 이해력을 실제로 회복시키는 방법은 무엇인가? (Part 3.)

이 세 가지는 서로 연관되어 있지만 서로 대체 가능한 것은 아닙니다. 메커니즘을 정확히 이해하더라도 궤적을 잘못 파악할 수 있습니다 (예: 주니어들만이 위험에 처해 있다고 가정하는 경우). 또한 궤적을 파악하더라도 효과가 없는 개입 방식을 선택할 수도 있습니다 (예: 퇴화하고 있는 기술 그 자체인 “더 주의 깊게 검토하라”를 강요하는 경우). 메인 가이드에서는 이들을 함께 다루지만, 본 심층 분석에서는 증거, 실패 모드(Failure Modes), 그리고 해결책이 각각 다르기 때문에 이들을 분리하여 다룹니다.

Part 1: 메커니즘 — 오프로딩(Offloading)은 아웃소싱(Outsourcing)이 아니다

1.1 Anthropic 기술 형성 RCT, 주의 깊게 읽기

핵심 증거는 메인 가이드에서 이미 인용한 연구인 Shen과 Tamkin의 How AI Impacts Skill Formation (arXiv 2601.20245, 2026년 1월 29일 발표)입니다. 이 연구는 헤드라인이 시사하는 것보다 더 강력하면서도 더 좁은 범위를 다루고 있으므로 정확하게 읽어볼 가치가 있습니다.

설계: 주로 주니어급인 52명의 소프트웨어 엔지니어들로 구성되었으며, 모두 정기적인 Python 사용자이자 Trio(비동기 라이브러리)에 익숙하지 않은 상태였습니다. 이들은 AI 보조를 받는 그룹과 직접 코딩하는 그룹으로 무작위 배정되었습니다. 각 참가자는 워밍업을 수행한 후, Trio를 사용하여 두 가지 코딩 기능을 구현했으며, 사전에 경고된 이해도 퀴즈(Comprehension Quiz)를 풀었습니다. AI 그룹은 요청 시 정확한 코드를 생성할 수 있는 사이드바 어시스턴트를 가졌습니다.

결과: AI 그룹은 퀴즈에서 평균 50%를 기록했고, 직접 코딩한 그룹은 평균 67%를 기록했습니다. 이는 17%포인트의 격차(Cohen’s d = 0.738, p = 0.01)이며, 저자들은 이를 거의 두 단계의 성적 차이(Letter Grades)로 간주합니다. AI 그룹은 약 2분 더 빨리 작업을 마쳤으나, 그 차이는 통계적으로 유의미하지 않았습니다. 가장 큰 격차는 디버깅(Debugging) 질문에서 나타났습니다. 즉, 코드가 틀렸을 때 이를 인식하고 왜 실패하는지 이해하는 능력에서 차이가 났습니다.

이 연구에서 헤드라인 수치에 가려져 주목받지 못한, 강조할 만한 세 가지 사항이 있습니다.

첫째, 속도 향상은 대부분 실현되지 않았습니다. 여러 AI 참여자들은 할당된 시간의 30%에 달하는 최대 11분 동안 무려 15개의 쿼리 (Queries)를 작성하는 데 소비했습니다. 모두가 가정하는 생산성 이야기(“더 빠르지만 더 멍청해지는”)는 여기서조차 완전히 사실이 아니었습니다. 진정으로 새로운 과업(Task)에서 많은 참여자는 더 빠르지도, 더 나은 결과물을 내지도 못했습니다. AI가 제공하는 속도 향상은 익숙하고 반복적인 작업에서는 실재하지만, 새로운 것을 배우는 과정에서는 프롬프트 작성 오버헤드 (Prompt-composing overhead)로 인해 증발해 버릴 수 있습니다.

둘째, 저하된 기술은 정확히 감시 (Oversight) 기술이었습니다. 저자들은 AI 출력물을 검증하는 데 필요한 세 가지 역량인 디버깅 (Debugging), 코드 읽기, 그리고 개념적 이해 (Conceptual understanding)에 퀴즈의 비중을 의도적으로 높게 두었습니다. 그들은 AI 통합이 심화됨에 따라 중요도가 낮아진다는 논리로 저수준 코드 작성 (Low-level code writing, 구문 회상)의 비중을 명시적으로 낮추었습니다. 따라서 이 연구는 부수적인 학술적 기술을 측정하는 것이 아니라, 에이전틱 시대 (Agentic era)가 가장 의존하게 될 정확한 능력을 측정하고 있는 것입니다.

셋째 — 그리고 이 부분은 비관적인 보도들이 놓치고 있는 부분입니다 — AI 사용이 낮은 점수를 보장하지는 않았습니다. 참여자들이 어시스턴트 (Assistant)를 어떻게 사용했느냐에 따라 그들이 얼마나 많은 내용을 유지(Retain)하는지가 결정되었습니다. 이 발견은 이 장 전체의 핵심이므로, 아래 별도의 섹션에서 다룹니다.

저자들이 매우 신중하게 주의를 기울이는 부분이자 우리 또한 주의해야 할 점은 다음과 같습니다. 표본의 크기가 작고(n=52), 이해도(Comprehension)가 과업 직후에 측정되었으며, 즉각적인 퀴즈 성적이 지속적인 기술(Durable skill)을 예측할 수 있는지 여부는 아직 해결되지 않았습니다. 또한 저자들은 사이드바에 있는 채팅 어시스턴트(Chat assistant)라는 설정이 에이전트형 도구(Agentic tool)가 _아님_을 명시하며, "이러한 프로그램이 기술 발달에 미치는 영향은 아마도 더 뚜렷할 것"이라고 예상합니다. 이러한 범위 설정(Scoping)은 이 장에서 해당 연구를 어떻게 활용할지에 있어 중요합니다. 즉, 이 연구는 숙련된 개발자가 익숙한 시스템에서 에이전트(Agents)를 지시하는 것에 관한 것이 아니라, 누군가가 생소한 기술을 습득하는 _학습 모드(Learning mode)_에 관한 증거라는 점입니다. 이는 제2부에서 다룰 구분점입니다. 모든 논평가가 이 정도의 구분조차 받아들이는 것은 아닙니다. 일부 실무자들은 설계에 충분한 혼란 변수(Confounds)(인위적인 시간 압박, 즉각적인 퀴즈, 생소한 라이브러리 프레임링 등)가 포함되어 있어 이 연구를 결코 근거로 삼아서는 안 된다고 주장합니다. 그러한 비판은 유념할 가치가 있습니다. 이것은 하나의 무작위 대조 시험(RCT)이며, 저자들의 설명에 따르면 예비적인 단계입니다. 따라서 이 연구가 지닐 수 있는 무게는 "결정적(Settled)"인 것이 아니라 "방향성을 제시하고 상호 보완적인(Directional and corroborated)" 수준입니다.

출처: Shen & Tamkin, “How AI Impacts Skill Formation,” arXiv:2601.20245, 2026년 1월; Anthropic 블로그 포스트, 2026년 1월 29일.

1.2 오프로딩(Offloading) 대 아웃소싱(Outsourcing) — 핵심적인 차이점

“사용하느냐 마느냐”보다 “어떻게 사용하느냐”가 더 중요한 이유는 단 하나의 최근 논문 때문이 아니라, 성숙한 인지 과학 (Cognitive Science)의 연구 결과에 근거합니다. 기초가 되는 연구는 Risko와 Gilbert의 Cognitive Offloading (Trends in Cognitive Sciences, 2016)으로, 인지적 작업 (Cognitive work)을 외부 도구로 옮기는 행위를 정의하고 그 두 가지 측면, 즉 이점(현재의 요구량 감소)과 비용(나중의 내부 능력 감소)을 분류했습니다. 이 비용에는 이름과 생리학적 특징이 있는데, 바로 _인지적 불사용 위축 (Cognitive disuse atrophy)_입니다. 가장 명확한 증거는 AI가 등장하기 훨씬 전부터 있었습니다. GPS를 과도하게 사용하는 사람들은 해마 (Hippocampus)의 회백질 (Grey matter)이 측정 가능한 수준으로 감소하며, 보조 도구 없는 내비게이션 수행 능력이 떨어진다는 사실이 밝혀졌습니다 (Dahmani & Bohbot, 2017). 외부 도구가 인지적 기능을 안정적으로 수행하면, 그 기능을 위한 내부 능력은 불사용을 통해 감소합니다. _Nature Humanities and Social Sciences Communications_에 실린 2026년 리뷰 논문은 지난 10년간의 연구를 종합하고 있으며, 영국 교육부(UK Department for Education)의 2026년 교실 내 AI 사용 지침은 이제 안전한 사용을 기능의 문제가 아닌 설계 및 감독 (Design-and-supervision)의 문제로 다루고 있습니다. 일반적인 메커니즘은 이미 성숙해 있으나, AI 매개 소프트웨어 개발 (AI-mediated software development)에서 나타나는 정확한 형태는 여전히 파악 중입니다.

더 새롭고 — 그래서 주의 깊게 살펴볼 가치가 있는 것은 — 오프로딩 (Offloading)과 아웃소싱 (Outsourcing) 사이의 구체적인 이분법입니다. 이러한 프레임워크는 Paul Kirschner의 것이며, 2026년 1월 에세이(“Offloading? No Outsourcing!”)에서 더욱 날카롭게 다듬어졌으나 아직 학계의 합의(Consensus)가 이루어진 상태는 아닙니다. Kirschner 본인의 불만은 많은 문헌이 이 두 단어를 혼용하고 있다는 점입니다. 그가 인용한 Brookings 보고서의 경우, 그가 아웃소싱이라 부를 만한 내용에 대해 “오프로딩”이라는 단어를 57번이나 사용했습니다. 따라서 이 용어 (Vocabulary) 자체는 아직 정립 중인 한 학자의 유용한 조어 (Coinage)로 취급하되, 그 용어가 _지시하는 구분 (Distinction)_은 앞서 언급한 오프로딩 연구에 단단히 근거하고 있다고 이해해야 합니다. 그 구분은 다음과 같습니다:

인지적 오프로딩 (Cognitive offloading) — 부수적인 (extraneous) 부하를 위임하는 것. 이미 이해하고 있는 반복적인 작업(boilerplate), 구문 조회(syntax lookup), 기계적인 부분들을 AI가 처리하도록 하는 것입니다. Kirschner의 프레임워크에 따르면, 도구는 인지(cognition)를 지원할 뿐이며 사고는 여전히 사용자가 수행합니다. 이는 손으로 할 수 있는 산술 계산을 위해 계산기가 수행하는 역할과 같습니다.
인지적 아웃소싱 (Cognitive outsourcing) — 사고 그 자체를 넘겨주는 것: 즉, 정신적 모델(mental model)이 형성되었어야 할 내재적 부하(intrinsic load)를 넘기는 것입니다. 시스템이 생각하고, 사용자는 결과물만 소비합니다. 이것이 바로 부채를 축적하는 종류의 방식입니다.

이 구절들은 서로 혼용 가능한 것처럼 들리지만 그렇지 않습니다. "이 함수를 작성해줘"라는 동일한 키 입력이라도, 사용자가 이미 개념을 파악하고 있다면 오프로딩(offloading)이 되지만, 파악하지 못하고 있다면 아웃소싱(outsourcing)이 됩니다. 도구는 그 차이를 구분할 수 없습니다. 오직 사용자의 기존 이해도만이 이를 구분할 수 있으며, 이것이 바로 그 효과가 키보드 앞에 누가 앉아 있는지, 그리고 그들이 다음에 무엇을 하는지에 따라 강력하게 매개되는 이유입니다. Kirschner가 제시한 테스트가 바로 이 장의 핵심입니다. AI를 사용하여 초안을 비평하거나 추론을 점검하는 것은 오프로딩이며, AI에게 초안을 작성하게 하거나 추론을 수행하게 하는 것은 아웃소싱입니다.

이는 Anthropic 연구의 상호작용 패턴과 직접적으로 연결됩니다. 낮은 점수를 받은 패턴들(모두 평균 40% 미만)은 아웃소싱이었습니다: 전체 AI 위임 (full AI delegation) (가장 빠르지만 이해도는 가장 낮음), 점진적 의존 (progressive reliance) (처음에는 참여했으나 점차 모든 것을 위임하는 쪽으로 흘러감), 그리고 반복적 AI 디버깅 (iterative AI debugging) (문제를 이해하기 위해서가 아니라 문제를 해결하기 위해 AI를 사용함). 높은 점수를 받은 패턴들(65% 이상)은 오프로딩과 참여가 결합된 형태였습니다: 생성 후 이해 (generation-then-comprehension) (생성한 뒤, 왜 그렇게 작동하는지 질문함), 하이브리드 코드-설명 (hybrid code-explanation) (코드와 설명을 함께 요청함), 그리고 개념적 탐구 (conceptual inquiry) (개념적인 질문만 던지고, 코드는 독립적으로 작성함).

개념적 탐구 (conceptual inquiry) 그룹은 우리가 주목해야 할 대상입니다. 이들은 AI에게 코딩 질문을 전혀 하지 않았습니다. 오직 개념적인 질문만을 던졌으며, 코드는 직접 손으로 작성했고, 수많은 오류를 겪었으나 이를 독립적으로 해결했습니다. 이들은 높은 점수를 받은 그룹 중에서도 가장 높은 점수를 기록했으며, 속도 면에서도 순수 위임 (pure delegation) 그룹에 이어 전체에서 두 번째로 빨랐습니다. AI에게 '해달라'고 요청하는 대신 '가르쳐달라'고 요청하는 것은 학습에 더 효과적이었으며, 속도 면에서도 거의 차이가 나지 않았습니다. 참여(engagement)가 항상 속도를 희생시킨다는 직관은 틀렸습니다. 높은 이해도 (high-comprehension)를 얻는 가장 비용이 적게 드는 경로는 AI를 계약업체 (contractor)가 아닌 튜터 (tutor)로 사용하는 것이었습니다.

한 가지 솔직한 한계점은, 이 클러스터(clusters)들의 규모가 매우 작다는 것입니다 (고득점 그룹의 인원은 n=2, n=3, n=7이었습니다). 저자들은 이러한 패턴이 인과 관계 (causal)가 아닌 연관 관계 (associative)임을 명시하고 있습니다. 이들은 입증된 지렛대 (lever)가 아니라 결과와 상관관계가 있는 행동들을 설명하고 있는 것입니다. 그 메커니즘은 타당하며 여러 출처에서 일관되게 나타나지만, 클러스터의 크기를 고려할 때 이는 입증된 법칙이 아닌 강력한 가설 (strong hypothesis)로 간주되어야 합니다.

출처: Risko & Gilbert, “Cognitive Offloading,” Trends in Cognitive Sciences, 2016; Dahmani & Bohbot, 2017 (GPS/hippocampus); “Meta-cognitive insights into cognitive offloading,” Nature Humanities & Social Sciences Communications, 2026; Kirschner, “Offloading? No Outsourcing!” 2026; Sankaranarayanan, arXiv:2602.20206, 2026; Shen & Tamkin (2026); UK DfE AI-in-education guidance, May 2026.

1.3 신경과학이 더해주는 것과 더하지 못하는 것

대중 매체에서 가장 많이 인용되는 증거는 MIT Media Lab의 “Your Brain on ChatGPT” (Kosmyna et al., 2025) 연구입니다. 54명의 참가자가 세 가지 조건(LLM, 검색 엔진, 뇌만 사용) 하에서 에세이를 작성하였고, 32개 영역에 걸쳐 EEG (뇌파)를 측정하였으며, 18명의 참가자가 도구를 교체하는 네 번째 세션도 진행되었습니다. 연구 결과는 놀랍습니다. 뇌만 사용한 작성자들은 가장 강력하고 광범위하게 분포된 신경 연결성 (neural connectivity)을 보였고, LLM 사용자는 가장 약한 연결성을 보였으며, 검색 엔진 사용자는 그 중간 단계였습니다. 또한 LLM 사용자는 자신이 작성한 에세이에 대한 소유권 (ownership)을 가장 낮게 보고했으며, 불과 몇 분 전에 자신이 생산한 작업물을 인용하는 데 어려움을 겪었습니다.

이것을 행동적 발견 (behavioral findings)에 대한 생물학적 증거로 취급하고 싶은 유혹이 들 것입니다. 하지만 조금은 경계해야 합니다. 주의가 필요한 세 가지 이유는 다음과 같습니다:

이것은 코딩이 아니라 에세이 작성입니다. 소프트웨어 엔지니어링 (software engineering)으로의 전이는 추론 (inference)일 뿐, 측정 (measurement)이 아닙니다.
EEG 연결성 (EEG connectivity)은 참여도 (engagement)의 척도이지, 학습 (learning)이나 해악 (harm)의 척도가 아닙니다. 작업을 외부로 위임 (offload)했을 때 나타나는 낮은 연결성은 정확히 예측 가능한 결과이며, 그 자체로 지속적인 결함 (durable deficit)을 입증하지는 않습니다. "뇌가 절전 모드에 들어간다"는 말은 생생한 인용구일 뿐, 장기적인 능력 (long-term capability)에 대한 연구 결과가 아닙니다.
지속적 효과 (durable-effect)에 대한 증거는 18명으로 구성된 4차 세션에 의존하고 있습니다. 이는 이미 규모가 작은 연구 내에서도 매우 작은 하위 그룹 (subgroup)입니다.

AI의 문제가 아닙니다. 어떻게 사용하는지의 문제입니다

요약