「계획은 인간, 실행은 AI」를 약 40만 세션이 뒷받침하다 — Anthropic의 숙련도 연구를 읽고 - Insights | Molayo

저는 프로그래밍을 배우기 시작한 학생으로, 일상적인 개발의 대부분을 Claude Code에 맡기고 있습니다. 사용하면서 저만의 규칙이 자연스럽게 굳어졌습니다. 설계와 판단은 스스로 한다. 코드를 쓰는 것은 AI에게 맡긴다. 되돌릴 수 없는 조작만은 내 눈으로 확인한 뒤 실행한다. 이 세 가지입니다.

최근 Anthropic이 공개한 연구 「Agentic coding and persistent returns to expertise」를 읽고, 더듬더듬 만들어온 이 규칙이 약 40만 세션의 실제 데이터와 거의 같은 방향을 향하고 있다는 것을 알게 되었습니다. 이 기사는 그 연구를 1차 정보로 다시 읽고, 초보자인 저의 사용법에 어떻게 효과적인지 정리한 것입니다.

이 규칙, 특히 「되돌릴 수 없는 조작은 반드시 스스로 확인한다」를 진심으로 지키게 된 것은 한 번 사고를 쳤기 때문입니다. 직접 구성한 정기 태스크(코드를 자동으로 리뷰하게 하는 메커니즘)의 설정을 Claude가 클라우드 상에서 업데이트하게 했을 때, 절차가 아직 확립되지 않아 내용도 확인하지 않은 채 실행까지 진행해 버렸습니다. 결과적으로 설정의 일부(참조하고 있던 정보원이나 모델 지정)가 사라져 망가졌습니다. 게다가 그 조작에는 「되돌리기 (Undo)」 수단이 없었습니다.

잘못한 것은 Claude가 아니라, 되돌릴 수 없는 조작을 되돌릴 수 있는지 확인하지 않은 채 실행한 저의 진행 방식입니다. 그 이후로 외부나 운영 환경(Production)에 대해 쓰고, 지우고, 보내는 조작 직전에는 대상과 정말로 되돌릴 수 있는지를 제 눈으로 한 번 확인하도록 했습니다. 계획과 판단은 놓지 않고, 실행은 맡기되, 불가역적인 것만은 제가 멈춘다. 이 기사의 규칙은 이 실패로부터 역산하여 만들어진 것입니다.

어떤 연구인가

이 연구는 2025년 10월부터 2026년 4월 사이의 **약 40만 건의 Claude Code 세션 (약 23.5만 명분)**을 익명으로 집계하여 분석한 것입니다. 이용 방식을 9가지 작업 모드로 나누었으며, 그중 4가지(writing / fixing / testing / orchestrating)가 코드를 직접 건드리는 모드였습니다. 원문에 따르면 「세션의 약 56%가 코드를 작성(25%)·수정(26%)·테스트 및 오케스트레이션(5%)」으로 구성되어 있습니다.

계획은 인간, 실행은 AI

가장 납득이 갔던 부분은 작업의 분담입니다. 원문에는 이렇게 적혀 있습니다. 「사람들은 계획의 의사결정 약 70%를 수행하지만, 실행의 의사결정은 약 20%밖에 수행하지 않는다」. 뒤집어 말하면 실행의 8할은 Claude가 결정하고 있습니다. 프롬프트(Prompt)를 한 번 보낼 때마다 전체 평균 약 10개의 액션(Action)이 Claude 측에서 실행됩니다.

「인간이 생각하여 방향을 정하고, AI가 손을 움직인다」. 이 분담이 특수한 사용법이 아니라 평균적인 모습으로 관측되고 있다는 점이 흥미로운 부분입니다. 통째로 맡기는 것이 아니라, 인간이 「생각하는 부분」을 계속 쥐고 있는 구도입니다.

코드 실력보다 「대상 분야의 숙련도」

초보자인 저에게 와닿은 부분은 여기입니다. 원문에 따르면, 코드를 작성하는 세션에서는 데이터상 규모가 큰 10개 직종 모두가 성공도 면에서 소프트웨어 엔지니어로부터 7포인트 이내에 머물러 있었습니다. 소프트웨어 전문직이 아닌 직종에서도 유사한 성과가 나오고 있습니다.

정확히 말하자면 이는 「7포인트 이내」이지 모두 동일한 수준은 아닙니다. 절대치로는 소프트웨어 엔지니어가 여전히 상위에 있습니다. 그럼에도 직종의 벽이 이 정도 수준으로 좁혀져 있다는 사실은, 효과를 발휘하는 것이 코드 실력 그 자체가 아님을 시사합니다.

효과를 발휘한 것은 숙련도였습니다. 숙련된 세션은 1 프롬프트에 약 12 액션·약 3,200단어를 담는 반면, 초보자의 세션은 약 5 액션·약 600단어 정도입니다. 액션 수로 2배 이상, 출력량으로 5배의 차이가 납니다. 검증된 성공률도 초보자의 약 15%에 비해 중~~상급자는 28~~33%까지 올라갑니다.

초보자인 저에게 주는 함의는 명확합니다. 코드의 세부 사항을 외우기 전에, 대상 분야(저의 경우 기본정보기술자 시험 범위나 만들고 있는 앱의 도메인)의 어휘와 「질문의 질」을 높이는 것이 성공률을 끌어올린다. 「먼저 대상을 이해한 뒤에 쓰게 한다」는 방식의 현실적인 근거가 되었습니다.

「한 번에 통과한다」는 전제는 위험

성공률의 절대치도 직시해야 할 부분입니다. 중~~상급자라도 28~~33%. 절반도 통과하지 못합니다.

이 수치는 기대치를 낮추는 숫자이지만, 동시에 운영의 지침이기도 합니다. AI가 한 번에 정답을 내놓는다는 전제로 진행하면, 70% 정도는 틀린다는 계산이 나옵니다. 그렇기에 반복을 전제로 운영하며, 특히 되돌릴 수 없는 조작에는 인간의 리뷰 (Review)를 거치도록 합니다. 이러한 신중한 방식이 데이터상으로는 더 이치에 맞습니다. 참고로 세션당 추정 가치는 10월부터 4월까지 27% 성장했다고 합니다. 사용법도 도구도 조금씩 변하고 있는 것이라 생각합니다.

자신의 운영에 비추어

읽으면서 가장 "맞다"고 느낀 부분은 성공률 30%라는 숫자입니다. 제가 체감하는 바와 정확히 일치했습니다. Claude가 한 번에 정답을 내놓는 경우는 그리 많지 않습니다. 몇 번이고 다시 던지고, 확인하고, 수정하게 하여 겨우 통과합니다. 그래서 운영 방식을 바꾸려 하지 않았습니다. 오히려 "반복을 전제로 돌린다 · 불가역적인 것만은 스스로 멈춘다"라는 지금의 방식이, 데이터에 비추어 보아도 틀리지 않았음을 확인하게 되었습니다.

70/20의 분담 또한 제 방식과 그대로 겹칩니다. 방향과 사양 (Specification)을 결정하는 쪽으로 돌아서고, 구현은 거의 Claude에게 맡깁니다. 그 위에, 실행하기 전에 목적 · 수요 · 더 간단한 대안을 자문하고, 되돌릴 수 없는 조작 앞에서 한 번 멈춘다는 자신만의 규칙을 끼워 넣고 있습니다. 이것은 70% 측, 즉 계획과 판단을 계속 쥐고 있기 위한 장치라는 점을 읽으며 납득할 수 있었습니다.

"코드보다 대상 분야의 숙련도" 역시, 되돌아보니 맞는 말이라는 생각이 듭니다. 가장 잘 만들 수 있었던 것은, 제가 플레이어로서 깊게 몰입하고 있는 osu!라는 게임의 보조 도구였습니다. 코드는 쓸 줄 몰라도, 그 분야에서 무엇이 즐거운지 · 어떤 수치가 효과적인지를 알고 있었기에 Claude에게 정확하게 지시할 수 있었습니다. 반대로, 제가 잘 모르는 분야일수록 지시가 흔들리고 재작업이 늘어납니다.

마치며

이 연구는 무언가를 "도입"하는 이야기가 아닙니다. 저와 같은 초심자가 더듬거리며 만들어낸 사용법을, Anthropic 자체의 대규모 데이터가 추인해 주었다는 확인입니다. 과장 없이 말할 수 있는 것은, 계획과 판단을 놓지 않는 것, 그리고 코드보다 먼저 대상을 이해하는 것입니다. 이 두 가지는 데이터에 비추어 보아도 틀리지 않았습니다.

출처

Anthropic, "Agentic coding and persistent returns to expertise": https://www.anthropic.com/research/claude-code-expertise

(본 기사의 수치는 위의 원전을 대조하여 확인하였습니다.)

「계획은 인간, 실행은 AI」를 약 40만 세션이 뒷받침하다 — Anthropic의 숙련도 연구를 읽고

요약

핵심 포인트

어떤 연구인가

계획은 인간, 실행은 AI

코드 실력보다 「대상 분야의 숙련도」

「한 번에 통과한다」는 전제는 위험

자신의 운영에 비추어

마치며

출처

Discussion

댓글