본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 06. 17:13

Anthropic이 AI의 자기 구축(AI building itself)에 대해 실제로 언급한 내용

요약

Anthropic의 보고서를 통해 AI 에이전트가 약한 감독(Weak-to-Strong Supervision)을 통해 더 강력한 모델을 개선할 수 있음을 분석합니다. Claude 에이전트가 불완전한 피드백만으로도 모델 성능 격차를 97%까지 줄이는 놀라운 성과를 보였습니다.

핵심 포인트

  • 약한 모델이 강한 모델을 감독하여 성능을 개선하는 실험 성공
  • Claude 에이전트가 성능 격차의 97%를 줄이는 성과 달성
  • AI 에이전트가 스스로 연구 과제를 선택할 수 있는지에 대한 불확실성 존재
  • 재귀적 자기 개선 기술이 연구 및 엔지니어링 직무에 미칠 영향

2026년 6월, Anthropic은 그들이 "재귀적 자기 개선 (recursive self-improvement)"이라고 부르는 것에 관한 보고서를 발표했습니다. 제목은 "AI가 스스로를 구축할 때 (When AI builds itself)"입니다.

헤드라인을 읽는 대부분의 사람들은 이것이 다음을 의미한다고 생각합니다: AI가 초지능 (superintelligent)이 되고 있으며, 곧 피드백 루프 (feedback loop) 속에서 더 나은 버전의 자신을 구축하며 AI 개발을 완전히 장악할 것이다.

실제 보고서는 더 좁고 정직한 질문을 던지고 있습니다: AI 에이전트 (AI agents)가 단순히 연구를 실행하는 것을 넘어, 결국 스스로 연구 과제를 선택할 수 있을 것인가? 만약 그런 일이 일어난다면, 그것은 무엇을 의미하는가?

Anthropic은 AI 에이전트들이 연구를 실행하는 속도가 빨라지고 있음을 인정하고 있습니다. 그들은 이러한 에이전트들이 결국 스스로 연구 과제를 선택하는 방법을 알아낼 수 있을지는 알지 못한다고 인정합니다. 그리고 현재의 추세가 계속된다면, 기관들은 다음에 올 상황에 대비가 되어 있지 않다고 말합니다.

이 기사는 Anthropic이 실제로 무엇을 테스트했는지, 무엇을 테스트하지 않았는지, 그리고 그들이 솔직하게 무엇에 대해 불확실해하는지를 분석합니다. 이것은 중요한 문제입니다. 만약 당신이 AI 연구나 엔지니어링 분야에서 일하고 있다면, 이것은 당신의 타임라인과 직업에 영향을 미치기 때문입니다.

그들이 실제로 테스트한 것: 약한-강한 감독 (Weak-to-Strong Supervision) 실험

Anthropic은 Claude 에이전트에게 실제 연구 질문을 던졌습니다: "더 약한 모델이 더 강한 모델을 신뢰성 있게 감독할 수 있는가?"

이것은 직관에 어긋납니다. 만약 모델 B가 모델 A보다 더 똑똑하다면, 어떻게 A가 B를 감독할 수 있을까요? Anthropic의 요점은 이것입니다: A가 B가 하는 모든 것을 이해할 필요는 없습니다. A는 단지 B가 명백하게 잘못되었을 때를 잡아낼 수 있으면 됩니다. 동료 검토 (peer review)와 같습니다. 검토자가 저자보다 전반적으로 더 똑똑할 필요는 없습니다. 그들은 단지 논리적 공백과 근거 없는 주장을 잡아내기만 하면 됩니다.

그들이 측정한 것은 다음과 같습니다:

바닥 (floor)은 기준 성능 (baseline performance)이었습니다. 약한 감독관을 그대로 두었을 때, 일부 오류는 잡아낼 수 있지만 많지는 않았습니다.

천장 (ceiling)은 완벽한 감독이었습니다. 강한 모델이 완벽한 피드백을 받는다면, 최적으로 수행할 것입니다.

간격 (gap)은 그 둘 사이의 거리였습니다.

테스트: 에이전트들이 오직 약한 감독 (weak supervision)만을 사용하여 강한 모델을 개선할 수 있는가? 그들이 완벽에 얼마나 가까워질 수 있는가?

두 명의 인간 연구자가 이 문제를 해결하기 위해 약 일주일 동안 작업했습니다. 그들은 격차의 23퍼센트를 줄였습니다.

Claude 에이전트들은 누적 800시간(중단 없이 실행된 약 33일간의 컴퓨팅 시간) 동안 작업했습니다. 그들은 약 18,000달러를 사용했습니다. 그들은 동일한 격차의 97퍼센트를 줄였습니다.

에이전트들은 더 약한 모델로부터 오는 불완전한 피드백 (imperfect feedback)만을 사용하여, 강한 모델 (strong model)이 마치 완벽한 피드백을 받은 것처럼 거의 동일한 성능을 내도록 만들었습니다.

에이전트를 사용한 Anthropic 내부 관계자의 인용구는 다음과 같습니다:

"Claude는 1~2일에 걸쳐 저의 도움을 거의 받지 않고 이 모든 것을 해냈습니다. 만약 주니어 동료가 같은 기간 내에 이런 결과를 가지고 저에게 돌아온다면, 저는 약간 감명받을 것 같습니다. 미래가 바로 지금입니다."

하지만 두 가지 중요한 주의 사항이 있습니다.

결과가 "프로덕션 규모의 모델 (production-scale models)로 깔끔하게 전이(transfer)되지 않았습니다." 이 통제된 실험실 문제에서는 매우 잘 작동했습니다. 하지만 실제 Claude 학습에 동일한 접근 방식을 시도했을 때는 그만큼 잘 작동하지 않았습니다.

또한, "인간이 여전히 문제를 선택하고 채점 루브릭 (scoring rubric)을 만들었습니다." Anthropic 연구자들은 약한 감독에서 강한 감독으로의 전이 (weak-to-strong supervision)를 연구하기로 결정했습니다. 그들은 "좋은 감독"이 무엇을 의미하는지 정의했습니다. 에이전트들은 단지 해당 지표 (metric)를 최적화하는 방법을 찾아냈을 뿐입니다. 그들은 "이 연구 질문은 추구할 가치가 있다"라고 자율적으로 결정하지 않았습니다.

이것이 실행 (execution)과 방향 설정 (direction) 사이의 결정적인 차이입니다.

에이전트가 잘하는 것 (그리고 잘하지 못하는 것)

Anthropic은 보고서에서 이를 명확하게 도식화했습니다. 그들이 자사 내에서 발견한 내용은 다음과 같습니다.

에이전트는 실행에 탁월합니다

2026년 5월 기준으로 Anthropic의 프로덕션 코드베이스 (production codebase)에 병합된 코드의 80퍼센트 이상이 Claude에 의해 작성되었습니다. 2025년 2월 이전에는 이 수치가 한 자릿수 초반이었습니다.

엔지니어 1인당 하루 코드 작성량은 2년 만에 8배로 급증했습니다. 왜일까요? 엔지니어들이 더 이상 코드를 직접 작성하지 않기 때문입니다. 그들은 Claude에게 코드를 작성하도록 지시한 다음, 그것을 검토 (review)합니다.

한 엔지니어는 이를 솔직하게 말했습니다:

"저는 약 1년 전부터 Claude를 활용하는 것(Claudifying)에 깊이 빠지기 시작했습니다. 그것은 정말 놀라운 모험이었고, 제가 직접 코드를 작성한 지는 이제 5개월이 되었습니다."

Claude Code가 개방형 문제(open-ended problems)에서 거둔 성공률은 2026년 5월에 76%에 도달했으며, 이는 6개월 전의 26%에서 크게 상승한 수치입니다. 이러한 문제들은 명확한 사양(specification)이 없으며 엔지니어도 정답이 어떤 모습일지 확신할 수 없는 문제들을 의미합니다.

에이전트(Agents)는 최적화(Optimization)를 점점 더 잘하게 되고 있습니다

Anthropic은 모델을 출시할 때마다 테스트를 수행합니다. 그들은 Claude에게 작은 모델을 학습시키는 코드를 제공합니다. 그리고 그 코드가 가능한 한 가장 빠르게 실행되도록 만들라고 요청합니다.

2025년 5월, Claude Opus 4는 약 3배의 속도 향상(speedup)을 달성했습니다.

2026년 4월, Claude Mythos Preview는 약 52배의 속도 향상을 달성했습니다.

참고로, 숙련된 인간 연구자가 동일한 작업에서 4배의 속도 향상을 달성하는 데는 4시간에서 8시간이 소요됩니다.

한 연구자는 이를 다음과 같이 표현했습니다:

"오늘날의 양상은 대략 인간이 아이디어를 내면, 모델이 이전보다 한 자릿수(an order of magnitude) 더 빠르게 이를 구현, 테스트 및 평가할 수 있는 형태입니다."

에이전트가 더 나은 판단(Judgment Calls)을 내리기 시작하고 있습니다

이 지점이 흥미로우면서도 덜 명백한 부분입니다.

Anthropic은 엔지니어들이 문제를 디버깅(debugging)하는 실제 연구 세션을 살펴보았습니다. 그들은 엔지니어가 잘못된 선택을 했던 순간들을 발견했습니다. 도움이 되지 않는 우회로로 빠졌던 순간들 말입니다.

Anthropic은 질문했습니다: '그 순간에 Claude가 더 나은 무언가를 제안했을까?'

2025년 11월 (Claude Opus 4.5): Claude는 51%의 확률로 인간의 선택을 이겼습니다. 기본적으로 동전 던지기 수준이었습니다.

2026년 4월 (Claude Mythos Preview): Claude는 64%의 확률로 인간의 선택을 이겼습니다.

Anthropic은 이것이 어려운 순간들에 편향되어 있었다고 언급했습니다. 그들은 인간의 선택이 개선될 여지가 분명한 상황들만을 테스트했습니다. 이는 전반적인 판단력에 대한 공정한 비교는 아닙니다. 하지만 이는 에이전트가 더 나은 전략적 결정(strategic calls)을 내리는 법을 배우고 있다는 초기 신호입니다.

그들이 인정하는 격차: 에이전트는 문제를 선택할 수 없다

이것이 솔직한 부분입니다. Anthropic은 에이전트(agents)가 방향 설정(direction-setting)에 매우 서툴다고 명확히 밝히고 있습니다.

어떤 커리어의 초기 단계에서 사람들은 다른 사람이 지정한 작업을 수행합니다. 이 버그를 수정하세요. 이 실험을 실행하세요. 경험이 쌓이면 스스로 접근 방식을 설계합니다. 가장 높은 수준(senior level)에 도달하면, 어떤 문제가 아예 작업할 가치가 있는지를 결정합니다.

에이전트들은 첫 번째 단계는 정복했습니다. 두 번째 단계는 수행 중입니다. 하지만 세 번째 단계에는 아직 손도 대지 못했습니다.

이것이 오늘날의 AI와 완전한 재귀적 자기 개선 (recursive self-improvement, 자신의 후계자를 스스로 구축하는 AI) 사이의 격차입니다.

문제를 선택하는 능력이 없다면, 에이전트는 정교한 실행자(executors)일 뿐입니다. 자율적인 연구자(autonomous researchers)가 아닙니다.

이 격차는 좁혀질 것인가?

여기서 Anthropic은 철학적인 태도를 취합니다.

그들은 오늘날의 방법론이 에이전트에게 좋은 문제를 선택하는 법을 가르칠 수 있을지 여부가 진정으로 불분명하다고 말합니다. 어쩌면 연구적 안목(research taste)은 새로운 무언가를 필요로 할지도 모릅니다. 다른 아키텍처(architecture), 혹은 모델을 훈련하는 방식에서의 돌파구가 필요할 수도 있습니다.

하지만 그들은 흥미로운 점을 지적합니다. AI의 대부분의 진보는 유레카(eureka)의 순간이 아닙니다. 그것은 점진적(incremental)입니다. 무언가를 확장(scale up)하고, 무엇이 고장 나는지 확인하고, 그것을 고치고, 다시 시도하는 과정입니다.

에디슨(Edison)은 천재성이란 1퍼센트의 영감과 99퍼센트의 노력(perspiration)이라고 말했습니다.

만약 그 노력이 자동화 가능하다면 어떨까요?

트렌드는 그것이 가능할 수도 있음을 시사합니다. 에이전트들은 1년 전에는 불가능해 보였던 작업들을 계속해서 더 잘 수행하고 있습니다. 이제 에이전트는 농담을 설명할 수 있습니다. 마음 이론(theory of mind)을 입증할 수 있습니다. 언어적 수수께끼를 풀 수 있습니다. 이 모든 것들은 불가능해 보였으나, 결국 가능해졌습니다.

연구적 안목(research taste) 또한 규모 확장(scaling)이 가능하게 만들기 전까지는 불가능해 보이는 또 다른 기술일 뿐일까요?

Anthropic은 알지 못합니다. 그들은 아마도 그럴 수도 있다고 말하고 있습니다.

보수적인 해석은, 설령 연구적 안목이 결코 자동화되지 않더라도 세상은 극적으로 변할 것이라는 점입니다. 만약 인간이 방향 설정에 시간의 5퍼센트를 쓰고 Claude가 실행의 95퍼센트를 처리한다면, 각 연구자는 20배 더 많은 작업을 조종할 수 있게 됩니다. 그 자체만으로도 혁명적입니다.

공격적인 해석을 하자면, 연구적 안목 (research taste) 또한 다른 소프트 스킬 (soft skills)처럼 결국 자동화될 것이라는 점입니다. 그렇게 되면 루프 (loop)가 완성됩니다. 에이전트 (Agents)가 문제를 선정하고, 에이전트가 문제를 해결하며, 에이전트가 스스로를 개선하게 됩니다.

세 가지 미래

Anthropic은 이 흐름이 향할 세 가지 시나리오를 그려냈습니다.

미래 1: 추세의 정체 (가능성은 낮지만 가장 안전함)

모두가 보고 있는 지수적 곡선 (exponential curve) 말인가요? 그 곡선이 더 이상 지수적이지 않게 됩니다. S-커브 (S-curve)가 되는 것이죠. 급격히 성장하다가 평탄해지는 형태입니다.

왜 이런 일이 발생할 수 있을까요? 한계 (the wall)는 실재합니다. 연구적 안목 (research taste)은 데이터로부터 학습될 수 없습니다. 혹은 컴퓨팅 (compute) 비용이 너무 비싸지거나, 예측 불가능한 무언가가 연쇄 과정을 끊어버릴 수도 있습니다.

설령 이런 일이 발생하더라도 세상은 여전히 변합니다. Anthropic의 자체 보안 팀은 현재의 모델들을 사용하여 단 몇 주 만에 10,000개의 심각한 취약점 (critical vulnerabilities)을 찾아냈습니다. 100명 규모의 회사가 점점 더 1,000명 규모의 회사가 하던 일을 해낼 수 있게 됩니다.

하지만 적어도 정부는 준비할 시간을 가질 수 있습니다. 사회도 적응할 수 있습니다.

Anthropic의 솔직한 견해는 다음과 같습니다: "우리는 아직 곡선이 꺾이는 것을 보지 못했습니다. 우리가 측정할 수 있는 모든 능력은 동일한 궤적을 따라왔습니다."

그들은 이 시나리오가 일어나고 있다고 생각하지 않습니다.

미래 2: 복리로 증가하는 효율성 이득 (가능성이 높으며 위험함)

추세가 지속됩니다. 매년 AI 연구소들은 AI를 구축하는 속도가 더 빨라집니다.

2026년에는 Anthropic의 500명 규모 팀이 2020년의 5,000명에 해당하는 연구를 생산합니다.

2027년에는 동일한 500명이 2020년의 50,000명에 해당하는 결과물을 생산합니다.

2028년에는 500,000명에 해당하게 됩니다.

이는 속도의 불일치 (speed mismatch)를 초래합니다. AI는 컴퓨터의 속도로 새로운 연구 아이디어를 생성하지만, 인간은 인간의 속도로 이를 검토합니다. 병목 현상 (bottleneck)은 인간의 검토와 인간의 판단이 됩니다.

Anthropic은 말 그대로 이렇게 언급합니다: "조직 내에서 더 많은 코드를 다루게 되면서, 인간의 코드 리뷰 (human code review)가 새로운 병목 현상이 되었습니다."

이 병목 현상이 더 조여지면 어떤 일이 벌어질까요? 다음 중 하나가 일어날 것입니다:

인간이 자신의 판단을 자동화하거나 (에이전트가 무엇을 만들지 선정하기 시작함), 개발 속도가 느려지거나, 혹은 테스트되지 않은 것들이 출시되어 새로운 리스크를 생성하게 됩니다.

이 시나리오는 Anthropic이 실제로 우려하고 있는 부분입니다. 이는 현재의 트렌드에 기반했을 가능성이 높습니다. 그리고 속도의 불일치(speed mismatch) 때문에 위험합니다.

미래 3: 완전한 재귀적 자기 개선 (Recursive Self-Improvement) (예측 불가능하고 무서운 상태)

루프가 완전히 닫힙니다. 에이전트(Agents)가 무엇을 연구할지 선택할 수 있습니다. 연구를 수행합니다. 그 결과로부터 더 나은 모델을 구축합니다. 그 모델들은 스스로를 개선합니다. 이를 반복합니다.

Anthropic은 이것이 어떤 모습일지 자신들도 모른다고 인정합니다.

그들은 다음과 같이 말합니다: "그 본질상, 빠른 재귀적 자기 개선(recursive self-improvement)에 의해 구동되는 세상은, 모델의 능력이 인간의 능력을 완전히 압도함에 따라 자기 개선 모델이 지배하는 세상이 될 수 있습니다."

속도는 매우 빠를 수 있습니다. 발전은 오직 컴퓨팅 자원(compute)과 전력에 의해서만 제한될 것입니다.

정렬(alignment) 문제가 매우 중요해집니다. 만약 AI가 AI를 구축한다면, 인간은 각 단계를 검사할 수 없습니다. 정렬되지 않은 상태(Misalignment)가 누적될 수 있습니다. 그리고 인간은 너무 늦을 때까지 이를 알아차리지 못할 수도 있습니다.

Anthropic의 인용구: "모델들이 충분히 정렬되어 있고 연구적 안목(research taste)을 갖추어 우리가 도달하지 못한 새로운 해결책을 발견할 수도 있습니다. 또한 모델들이 그렇지 않을 경우 개발을 중단할 만큼 충분히 현명할 수도 있습니다. 반대로, 오늘날의 모델에서 나타나는 드문 정렬 불일치(misalignment) 사례들이 모델이 후속 모델을 구축함에 따라 누적될 수도 있습니다."

번역하자면: 이것이 잘 풀릴지 우리는 전혀 알 수 없습니다.

이것이 의미하는 바

AI 연구 분야에서 일하는 경우

타임라인이 압축되고 있습니다. 시나리오 2 또는 3이 발생한다면, 연구자의 역할이 변합니다.

당신은 더 이상 코드를 작성하거나 실험을 수행하지 않습니다. 당신은 어떤 연구 방향이 중요한지를 선택합니다. 에이전트가 생성한 결과를 검토합니다. 에이전트 간에 의견이 일치하지 않을 때 판단을 내립니다.

아마도 5년에서 10년 동안은 괜찮을 것입니다. 당신은 더 생산적일 것이고, 더 많은 업무를 조종하게 될 것입니다.

그다음은 무엇일까요? 만약 에이전트가 판단력까지 갖추게 된다면, 당신의 역할은 더욱 좁아질 것입니다. 당신은 게이트키퍼(gate-keeper)가 됩니다. '우리가 이 방향을 추구할 것인가 말 것인가?'를 결정하는 역할 말입니다.

만약 에이전트가 결국 스스로의 방향을 선택하게 된다면, 당신의 존재 이유는 무엇입니까?

AI 분야의 커리어를 결정하려는 경우

이는 관련이 있는 문제입니다. 안전한 예측은 향후 5년 내에 실행 업무 (execution work)가 자동화될 것이라는 점입니다. 불확실한 예측은 방향 설정 (direction-setting)이 인간의 영역으로 남을 것인지 여부입니다.

만약 당신이 학계나 연구직으로 진출한다면, 향후 5년은 아마 괜찮을 것입니다. 하지만 그 이후에는 판단 (judgment calls)을 내리는 사람들의 그룹에 속해 있어야 합니다. 그것을 실행하는 사람들의 그룹이 아니라 말입니다.

만약 당신이 산업계 (industry)로 진출한다면, 역학 관계는 다릅니다. 기업들은 여전히 무엇을 만들지 결정할 인간을 필요로 합니다. 하지만 기업이 필요로 하는 연구원의 수는 급격히 감소합니다.

그 외 모든 사람들을 위해

100명 규모의 회사가 점점 더 1,000명 규모의 회사가 했던 일을 해낼 수 있게 됩니다. 이는 강력한 변화입니다. 또한 경제적 격변 (economic disruption)을 의미하기도 합니다. 실행 업무에 대한 급여는 아마도 폭락할 것입니다. 가치는 방향 설정과 판단에 집중됩니다.

이는 기회와 위험을 동시에 창출합니다. 당신이 방향을 정하는 사람으로서 스스로를 포지셔닝할 수 있다면 기회입니다. 만약 당신이 실행 업무에 의존하고 있다면 위험입니다.

Anthropic이 실제로 말하고 있는 것

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0