Anthropic은 인간 측면을 측정했습니다. 다섯 명의 운영자는 에이전트 측면을 구축하고 있습니다.

저는 이 문제들에 대해 논쟁할 경로가 고갈되었기 때문에 며칠 전 dev.to에 가입했습니다. 프레임워크를 구축해 온 수개월 동안 — 자율성(autonomy)과 직교하는 축으로서의 운영자 규율(operator discipline), 상태 필드(status fields)를 통한 잠긴 결정(locked decisions), 드리프트 탐지(drift detection), 대체 추적(supersession trails) — 제가 확신할 수 있었던 유일한 것은 내부적 일관성(internal coherence)이 무엇의 증거도 되지 않는다는 사실이었습니다. 프레임워크는 저자가 살아남음으로써가 아니라, 타인으로부터 살아남음으로써 생존합니다.

그래서 저는 게시를 시작했습니다. 오늘 드디어 이 프레임워크가 제 머릿속 밖의 무언가에 닿았습니다.

Anthropic이 측정한 것

6월 16일, Anthropic Economic Research는 "에이전트 기반 코딩과 전문성에 따른 지속적인 수익(Agentic coding and persistent returns to expertise)"을 발표했습니다. 약 400,000건의 대화형 Claude Code 세션. 약 235,000명의 사람. 2025년 10월부터 2026년 4월까지. 전문성 패턴, 위임 패턴, 성공 패턴을 다루었습니다.

그들의 표현을 빌린 핵심 결과는 다음과 같습니다:

"사람이 세션에 가져오는 도메인 전문성(domain expertise)이 클수록, Claude는 지시 하나당 더 많은 작업을 수행합니다."

"성공 여부는 그 사람이 코딩 훈련을 받았는지 여부가 아니라, 해결하려는 문제를 얼마나 잘 이해하고 있는지에 의해 결정됩니다."

Anthropic은 운영자 규율(operator discipline)을 직접 측정하지는 않았습니다. 대신 그와 가장 가까운 경험적 이웃인, 에이전트 작업의 승수로 작용하는 전문성을 측정했습니다.

전문가 등급이 매겨진 세션은 초보자 등급 세션에 비해 프롬프트당 Claude의 작업이 약 2.4배 더 많았으며, 텍스트 출력량은 대략 5배 더 많았습니다. 이 신호는 단순히 "코딩하는 법을 안다"는 것이 아닙니다. 이 신호는 "에이전트를 조종(steer)할 수 있을 만큼 문제를 충분히 잘 이해하고 있다"는 것입니다. 이는 제가 dev.to의 첫 번째 게시물에서 프레임으로 주장해 온 것과 동일한 축과 겹칩니다: 바이브 코딩(vibe coding)은 단계(level)가 아니라, 자율성(autonomy)에 대한 직교하는 축(orthogonal axis)입니다. 저의 더 강력한 주장은 L1 + 높은 규율(High discipline)이 시간이 지남에 따라 L5 + 낮은 규율(Low discipline)보다 성능이 뛰어나다는 것이었습니다. Anthropic이 그 주장을 직접 측정하지는 않았지만, 이 축의 인간 측면에 대해 측정 가능한 무언가를 제공해 주었습니다.

이 보고서가 답하고자 하지 않는 것은 에이전트 측면(agent-side)의 질문입니다. 즉, 매번 작업이 재구성되는 대신 세션 전반에 걸쳐 작업이 누적(compounds)되려면 어떤 종류의 상태(state), 메모리(memory), 거버넌스(governance), 그리고 전이 규칙(transition rules)이 존재해야 하는가 하는 점입니다. 이 보고서의 범위는 대화형 Claude Code 사용에 국한됩니다. 즉, 어떤 작업이 수행되는지, 누가 수행하는지, 세션이 성공하는지 여부 등을 다루며, 비대화형/헤드리스(headless) 사용의 상당 부분은 명시적으로 제외하고 있으며, 다운스트림(downstream)의 실제 세계 결과물은 측정하지 않습니다.

그 간극이 바로 실무자 클러스터(practitioner cluster)가 반대 방향에서 접근하며 탐구하고 있는 지점입니다.

클러스터가 구축하고 있는 것

이번 주에 이 플랫폼의 다른 다섯 운영자는 서로 다른 출발점에서 에이전트 측면의 질문을 밀어붙여 왔습니다:

Rapls: 상태 필드(status fields) 및 추가 전용(append-only) 결정 로그에 대하여.
Scarab Systems: 관리되는 베이스라인(governed baselines) 및 결정론적 강제(deterministic enforcement)에 대하여.
NOVAInetwork (@0xdevc): 대규모 환경에서 운영자의 규율을 대체하는 수단으로서의 쿼럼(quorum)에 대하여.
Raffaele Zarrelli (@sarracin0): 루프(loop)가 느려질 때 발생하는 구조적 압박(structural pressure)에 대하여.
Brian Hall: 결정론적 게이트(deterministic gate)에 대하여 — 그리고 현재 오픈 소스 참조 아키텍처(faramesh-core, MPL-2.0)를 보유하고 있습니다.

이 클러스터의 요약된 결론은 다음과 같습니다. 다섯 가지의 서로 다른 출발점에서 하나의 아키텍처적 결론에 도달했습니다. 즉, LLM은 제안하고, 결정론적 규칙(deterministic rules)이 강제하며, 인간이 전이(transitions)를 승인하고, 이 규칙들은 에이전트의 추론 루프(reasoning loop) 외부에 존재한다는 것입니다.

이것이 바로 Anthropic 보고서의 범위를 벗어나 존재하는 에이전트 측면의 비계(scaffolding)입니다.

동일한 해답의 두 측면

Anthropic은 인간이 루프에 전문성을 가져올 때 어떤 일이 발생하는지를 측정했습니다. 제가 오늘 읽고 쓰며 시간을 보낸 클러스터는 그 전문성이 세션, 도구, 그리고 에이전트를 가로질러 생존해야 할 때 어떤 일이 발생하는지에 대한 아키텍처를 구축하고 있습니다. 동일한 축 위에서 두 가지 방향을 다룸으로써, 더 완전한 그림을 그려나가는 것입니다.

Anthropic의 공식 연구와 dev.to의 독립적인 실무자들이 모두 동일한 문제의 인접한 부분을 가리키고 있습니다. 동일한 주장은 아니며, 동일한 계층(layer)도 아닙니다. 하지만 동일한 방향을 향하고 있습니다.

이것은 단순히 유행하는 의견(viral take)이 아닙니다. 이는 초기 수렴 신호(convergence signal)입니다.

저는 이 프레임워크를 실제로 그것을 사용하여 제품을 출시하는 운영자(operators)들과 대조해 보기 위해 이곳에 왔습니다. 프레임워크는 접촉하자마자 무너지지 않았습니다. 오히려 더 날카로워졌습니다. 반론을 제기한 동료들은 제가 보지 못했던 격차(gaps)를 지적했습니다. 그리고 이 분야의 가장 큰 연구소 중 하나가 우리가 그 작업을 수행하는 동안 인간 측면의 측정(human-side measurement) 결과를 발표했습니다.

서로 다른 방향에서 온 두 개의 독립적인 신호가 같은 주에, 같은 문제 영역(problem space)에서 수렴하고 있습니다. 이것은 프레임워크가 옳다는 뜻이 아닙니다. 이 분야가 응집(coalesce)되기 시작했다는 뜻입니다.

이 고리를 닫기에 좋은 일요일입니다.

운영자 규율(Operator discipline)은 더 이상 단순한 개인적 워크플로우가 아닙니다. 그것은 하나의 축(axis), 측정 문제(measurement problem), 그리고 아키텍처(architecture)처럼 보이기 시작했습니다. 다음에 무엇이 오든, 그것은 구축되고, 측정되며, 거버넌스(governed)되어야 합니다.

https://www.anthropic.com/research/claude-code-expertise

Anthropic은 인간 측면을 측정했습니다. 다섯 명의 운영자는 에이전트 측면을 구축하고 있습니다.

요약

핵심 포인트

Anthropic이 측정한 것

클러스터가 구축하고 있는 것

동일한 해답의 두 측면

댓글