본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 15. 04:07

조작자에서 위탁자로──Claude Fable 5가 보여준 「맡기는 일」의 시작

요약

Anthropic이 발표한 Claude Fable 5와 Claude Mythos 5는 단순한 도구를 넘어 업무를 위탁(Delegation)할 수 있는 고성능 모델입니다. 복잡한 태스크 수행 능력이 비약적으로 향상되었으며, 코드 이전 및 시각적 태스크 등 다양한 분야에서 압도적인 성능을 입증했습니다.

핵심 포인트

  • 인간과 AI의 관계가 '조작자'에서 '위탁자'로 변화
  • Claude Fable 5는 길고 복잡한 태스크에 최적화된 고성능 모델
  • Stripe의 대규모 코드베이스 이전 작업을 단 하루 만에 완료
  • 시각적 태스크 및 게임 플레이 등 복잡한 환경에서의 성능 개선

어느 엔지니어가 자신이 직접 만든 편리한 시스템을 삭제했다는 이야기부터 시작하고 싶습니다.

AI에게 언제 어디서든 일을 부탁할 수 있도록 만들었습니다. 목욕 중에도, 이동 중에도 스마트폰으로 진척 상황을 확인할 수 있습니다. 생각이 나면 바로 의뢰할 수 있고, 끝나면 그 자리에서 확인할 수 있습니다. 목표(Goal)만 적으면 조사부터 구현까지 진행됩니다.

효율은 올라갔습니다.

하지만, 지쳤습니다.

그 사람은 결국 스마트폰에서 AI에게 명령할 수 있는 입구를 삭제했습니다.

이 이야기는 단순히 "AI를 너무 많이 사용하면 지친다"라는 생활 기술에 관한 것이 아니라고 생각합니다. 오히려 앞으로 많은 사람이 마주하게 될 일의 형태를 조금 일찍 체험해 버린 이야기입니다.

AI가 일문일답(一問一答) 도구였던 시대는 아직 이해하기 쉬웠습니다. 이쪽이 묻고, AI가 답합니다. 인간은 그 답을 읽고 사용할지 말지를 결정합니다.

하지만 AI가 몇 시간, 경우에 따라서는 반나절 이상 이쪽을 대신해 작업을 진행하게 되면 관계가 변합니다.

인간은 더 이상 세세하게 조작하지 않습니다.

하고 싶은 것을 전달합니다. 전제 조건(Premise)을 넘겨줍니다. 비용을 지불합니다. 결과를 기다립니다. 마지막에 받을 수 있을지를 판단합니다.

이것은 도구를 조작하고 있다기보다, 일을 위탁(Delegation)하고 있는 상태에 가깝습니다.

Claude Fable 5의 발표에서 보인 진정한 변화는 모델이 얼마나 똑똑해졌는가만이 아닙니다. 인간과 AI의 관계가 "조작자와 도구"에서 "의뢰하는 사람과 일을 맡는 상대"로 변하기 시작했다는 점입니다.

이 기사에서는 그 변화에 대해 고찰합니다.

Anthropic은 2026년 6월 9일, Claude Fable 5와 Claude Mythos 5를 발표했습니다.

Fable 5는 일반 사용자에게 공개된 첫 번째 Mythos-class 모델입니다. Anthropic의 설명에 따르면, Fable 5는 자사가 일반 제공한 모델 중 가장 고성능 모델이며, 특히 길고 복잡한 태스크(Task)에서 기존 모델과의 차이가 커진다고 합니다.

가격은 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러입니다. Mythos Preview보다 절반 미만으로 낮아졌습니다.

한편, Fable 5는 그대로 무제한 사용할 수 있는 모델은 아닙니다.

사이버 보안, 생물학·화학, 증류와 관련된 요청이 감지되면 응답은 Claude Opus 4.8로 전환됩니다. 현재는 이러한 별도 모델로의 전환이 일어났을 경우 사용자에게 명시하는 방침을 취하고 있습니다. Anthropic은 Fable 세션의 95% 이상에서는 모델 전환이 일어나지 않는다고 설명합니다.

동일한 기반 모델(Foundation Model)의 제한을 일부 해제한 Claude Mythos 5도 발표되었으나, 이는 Project Glasswing의 파트너 등 제한된 대상에게 제공됩니다.

공식 발표에는 눈길을 끄는 사례들도 나열되어 있습니다.

Stripe의 조기 테스트에서는 5,000만 행의 Ruby 코드베이스에 대한 전체 이전을 Fable 5가 단 하루 만에 실행했다고 합니다. 인간 팀이라면 2개월 이상 걸릴 것으로 예상되었던 작업이라는 이야기입니다.

시각적 태스크(Visual Task)에서는 이전의 Claude 모델이 복잡한 harness를 필요로 했던 Pokémon FireRed를, Fable 5는 최소한의 vision-only harness만으로 끝까지 클리어했다고 합니다.

기억과 긴 문맥(Long Context)의 예로는 Slay the Spire를 플레이시켰을 때, 영구적인 파일 기억을 부여하면 Opus 4.8과 비교해 성능 개선 폭이 3배가 되고, 최종 act에 도달하는 빈도도 3배가 되었다고 설명합니다.

과학 분야에서는 Mythos 5의 사례로, 사내 단백질 설계에서 일부 공정을 약 10배 빠르게 진행한 것, 분자생물학의 가설 평가에서 과학자들이 Opus-class보다 Mythos의 가설을 약 80% 선택한 것, 나아가 다수의 종에 걸친 단일 세포 데이터를 다루는 genomics 연구를 1주일 이상 거의 자율적인 작업으로 진행한 것이 소개되었습니다. 다만, 이 부분은 Anthropic 자체의 설명이며 미발표 결과도 포함되어 있습니다. 읽는 사람은 이 점을 감안하여 판단할 필요가 있습니다.

여기까지라면 강력한 모델의 발표입니다.

하지만 이번 본론은 그것이 아닙니다.

Fable 5를 조기에 사용한 연구자의 체험기는 이번 발표를 읽을 때 빼놓을 수 없습니다.

그 사람은 Fable 5를 사이버 보안 이외의 다양한 용도로 시험했습니다. 결론은 지금까지 사용한 공개 모델보다 명확하게 강력하다는 것입니다. 다만, 동시에 "즐거움"과 "기괴함" 사이에 있는 체험이었다고도 적었습니다.

이해하기 쉬운 예로 등시선 지도(Isoline Map) 프로젝트가 있습니다.

등시선 지도(Isoline Map)란, 특정 도시로부터 일정 시간 내에 어디까지 갈 수 있는지를 시각화하는 지도입니다. 비행기, 철도, 도보, 자동차, 공항까지의 이동 시간, 국가별 도로 속도 등 세세한 판단이 대량으로 필요합니다. 기존 모델로는 제대로 쓸 만한 것을 만들기가 어려웠다고 합니다.

Fable 5는 이 의뢰를 받자, 스스로 여러 개의 저렴한 Sonnet 에이전트(Agent)를 실행하여 조사를 병렬로 진행했습니다. 최종적으로 2,200건 이상의 구체적인 항공편, TGV나 신칸센의 시간표, 각국의 도로 속도에 관한 논문까지 조사하며 지도 앱을 만들어 나갔습니다.

나아가 원격지의 도달 시간이 추정에 의존하고 있다는 지적을 받자, 이번에는 대항적인 에이전트 그룹을 만들어 서로의 조사 결과를 검증하게 했습니다. Pitcairn 섬으로 가는 선박편이나, Ottawa에서 Grise Fjord로 가는 방법까지 조사했다고 합니다.

또 다른 예는 Concord라는 연구 지원 소프트웨어입니다.

인간의 답변과 AI의 답변을 분류하고, 여러 평가자의 판단을 비교하며, 데이터 분석에 사용할 수 있도록 교정하는 작업입니다. 연구자들에게는 오랫동안 필요했던 것이지만, 제작하는 데 너무 많은 공수가 들어 상업적으로는 수지타산이 맞지 않는 종류의 소프트웨어입니다.

Fable 5는 처음에 19페이지 분량의 설계 문서를 생성한 뒤, 이후 9시간 반 동안 연속으로 작업했습니다. 완성된 결과물이 완벽하지는 않았고, 전문가의 관점에서 보면 수정해야 할 점도 있었습니다. 그럼에도 불구하고 기존 모델에서는 본 적 없는 범위의 성과였다고 기록되어 있습니다.

여기서 중요한 것은 지도나 연구 소프트웨어 그 자체가 아닙니다.

인간이 무엇을 하고 있었는가입니다.

세세하게 작업하지 않았습니다.

큰 목표를 전달하고, 약간의 피드백을 주며, 마지막에 결과를 확인합니다. 도중에 수백 가지의 작은 판단이 이루어지고 있음에도, 인간은 그 모든 것에 투표하지 않습니다.

이번에 주목해야 할 것은 바로 이 감각입니다.

그 연구자는 이전의 AI 체험을 'wizard', 즉 주문을 외우면 무언가 일어나는 마법사와 같다고 표현했습니다.

하지만 Fable 5에서는 그 감각이 바뀌었다고 합니다. 그의 감각으로는 자신은 더 이상 마법사가 아닙니다. 원하는 것을 설명하고, 대금을 지불하며, 결과를 판단하는 의뢰인에 가깝습니다.

그 변화를 그는 짧게 다음과 같이 썼습니다.

I no longer steer; I commission.

나는 더 이상 조종하지 않는다. 위탁한다.

이 표현은 이번의 변화를 잘 포착하고 있습니다.

AI와 일하는 감각은 처음에는 '입력해서 출력을 받는 것'이었습니다. 다음에는 '대화하며 함께 만드는 것'이 되었습니다. 나아가 코딩 에이전트(Coding Agent)가 등장하며 '일부 작업을 맡기는 것'이 되었습니다.

Fable 5가 보여주는 것은 그 다음 단계입니다.

한 단계 더 큰 일을, 덩어리째로 전달합니다.

이는 단순히 프롬프트(Prompt)가 길어졌다는 이야기가 아닙니다. 업무의 단위가 바뀌고 있습니다.

이전의 단위는 대략 '한 번의 답변'이었습니다.

질문한다. 답한다. 수정한다. 다시 묻는다.

지금 보이기 시작한 단위는 '몇 시간 분량의 작업'입니다.

설계한다. 조사한다. 구현한다. 다른 에이전트를 호출한다. 검증한다. 결과를 정리한다. 실패하면 되돌아간다.

인간은 그 작업 시간을 사고 있는 것입니다.

따라서 가격을 바라보는 관점도 바뀝니다. Fable 5가 Opus보다 2배 비싸다는 것만으로는 설명이 부족합니다. 비싼 토큰을 사고 있다기보다, AI의 작업 시간을 위탁하고 있다고 보는 편이 더 가깝습니다.

물론 이는 위험한 시각이기도 합니다. AI의 작업은 인간의 작업과 같지 않습니다. 품질도 안정적이지 않습니다. 마지막 확인도 필수적입니다.

그럼에도 체험 측면에서는 이미 '조작'이 아닌 '위탁'에 가깝습니다.

그 점이 새롭습니다.

METR에는 task-completion time horizon이라는 지표가 있습니다.

인간 전문가라면 어느 정도 시간이 걸릴 태스크(Task)를 AI 에이전트가 일정 성공률로 완료할 수 있는지를 보는 것입니다.

이 지표에 따르면 GPT-4o는 몇 분, Claude 3.7 Sonnet은 약 1시간, o3는 약 2시간 수준이며, 더 새로운 frontier model에서는 수 시간에서 십수 시간 규모로 늘어나고 있다는 견해가 제시되고 있습니다. Claude Mythos Preview는 50% time horizon이 16시간 이상으로 간주됩니다.

단, 여기에는 큰 주의점이 있습니다. METR 스스로도 16시간을 초과하는 측정은 현재의 태스크 세트(Task set)에서 신뢰성에 한계가 있다고 밝히고 있습니다. 228개의 태스크 중 16시간 이상인 것은 5개뿐입니다. 또한 Fable 5 본체는 이 글을 쓰는 시점에서 METR의 표에 등재되어 있지 않습니다.

그럼에도 불구하고, 방향성은 보입니다.

AI의 진보는 단발적인 정답률뿐만 아니라, 「얼마나 긴 업무를 맡길 수 있는가」로 측정되기 시작하고 있습니다.

이는 일하는 방식에 그대로 영향을 미칩니다.

만약 AI가 10분짜리 작업밖에 할 수 없다면, 인간은 계속 옆에 붙어 있어야 합니다. AI는 편리한 보조 바퀴입니다.

만약 AI가 2시간 동안 작업을 진행할 수 있다면, 인간은 그동안 다른 일을 할 수 있습니다.

만약 AI가 8시간, 12시간 동안 작업을 진행할 수 있다면, 업무 설계는 크게 바뀝니다. 아침에 사양(Specification)을 전달하고, 점심에 중간 성과를 확인하며, 저녁에 결과물을 받을 수 있을지 판단합니다. 밤에 긴 조사를 던져두고, 아침에 결과를 확인합니다. 여러 에이전트(Agent)에게 서로 다른 안을 실행하게 하고, 마지막에 비교합니다.

Every의 팟캐스트 「AI & I」(2026년 6월 10일 공개, 진행자 Dan Shipper)에서 Mike Krieger(Anthropic Labs 책임자, Instagram 공동 창업자)가 한 발언에도 이러한 감각이 구체적으로 나타나 있습니다. Krieger 씨는 최근 2개월 정도, 자기 전에 복잡한 일을 Claude에게 맡기는 습관이 있다고 말했습니다. 본인 말로는, Claude에게 잘 자라고 인사하며 일을 맡기는 느낌인데, 일어나 보면 작업의 본체는 오전 2시쯤에는 끝나 있다고 합니다. 도중에 원격 서비스가 다운되어도, 모델은 간단한 임시 백엔드(Backend)를 만들고, 문서를 작성하며, 중단 상황을 기록한 뒤, 서비스 복구 후에 수정한다는 전제로 작업을 계속 진행했다고 합니다. Krieger 씨가 감탄한 점은 끝까지 완수하려는 움직임이었습니다. 도구라기보다, 많은 일을 위임할 수 있는 팀메이트처럼 느껴진다는 관점입니다.

이렇게 되면, 인간의 일은 「AI를 조작하는 것」이 아니게 됩니다.

무엇을 맡길지 결정하는 것.

맡기기 전에, 무엇을 결과물로 할지 결정하는 것.

도중에 무엇을 확인할지 결정하는 것.

마지막으로, 어디까지 수용할지 판단하는 것.

즉, 위탁자(Client)의 일이 됩니다.

다만, 위탁은 방치가 아닙니다.

AI 에이전트에게 일을 맡기는 능력은, 사실 관리 능력에 가깝습니다.

무엇을 달성하고 싶은가. 왜 그것이 필요한가. 어디까지 권한을 넘길 것인가. 무엇을 해서는 안 되는가. 완료란 무엇인가. 도중에 무엇을 보고하게 할 것인가. 마지막에 무엇을 검사할 것인가.

이것은 예전부터 인간 사이의 업무에서 사용되어 온 기술입니다.

소프트웨어 개발이라면 PRD(제품 요구 사항 문서)나 사양서가 있습니다. 영화라면 샷 리스트(Shot list)가 있습니다. 건축이라면 설계 의도를 정리한 문서가 있습니다. 군대에는 명령서가 있습니다. 컨설팅에는 결과물의 정의가 있습니다.

AI 에이전트에 대한 지시도 본질적으로는 같습니다.

머릿속에 있는 의도를 다른 주체의 행동으로 변환하는 것.

그렇기에 앞으로 강해지는 것은, 프롬프트(Prompt)의 잔기술을 많이 알고 있는 사람뿐만이 아니라고 생각합니다.

오히려 다음과 같은 일을 할 수 있는 사람입니다.

목적을 언어로 표현할 수 있는 사람.

제약을 명확히 할 수 있는 사람.

결과물의 기준을 정할 수 있는 사람.

중간 보고의 입도(Granularity)를 설계할 수 있는 사람.

실패했을 때 피드백할 수 있는 사람.

성과를 확인하고 받아들일 수 있는 사람.

이 점에서 흥미로운 것은 Krieger 씨의 Anthropic 내부 이야기입니다. 그는 올해의 큰 방법론적 변화로, 확인 작업을 철저하게 무겁게 보기 시작했다는 점을 꼽았습니다. Claude가 제출하는 Pull Request에는 스크린샷이나 영상을 첨부합니다. 그렇게 하면 「8번째 스크린샷에 있는 에러 상태(Error state)를 수정한다」와 같은 확인이 가능합니다. iOS 앱에서는 스테이징(Staging)의 실제 계정에 접속하여 실제 데이터로 흐름을 테스트합니다. 나아가 실험 중인 프로토타입에서는, Claude 스스로가 FFmpeg와 조합하여 만든 영상의 녹화본을 확인하며, 정지 화면으로는 알 수 없는 「이 애니메이션은 조금 어색하다」와 같은 종류의 문제에 눈치챌 수도 있다고 합니다.

동시에, 책임의 소재는 인간에게 남습니다. Krieger 씨는 코드를 작성한 것이 Claude일지라도, 전체적인 판단은 이해하고 있어야 한다는 취지의 발언을 했습니다. 회의에서 「그것은 X입니까, Y입니까?」라는 질문을 받았을 때, 「솔직히 아직 명확하지 않으므로, 머지(Merge)하기 전에 이해하겠습니다」라고 답하는 상황이 늘어날 것입니다. 이는 태만이 아니라, 새로운 작업 양식에 대한 적응입니다. 위탁했기 때문에, 마지막에 이해하고 받아들일 책임이 더욱 중요해집니다.

눈에 띄는 이야기는 아닙니다.

하지만, 위탁 시대의 중심은 바로 이곳입니다.

AI가 빨라질수록 「무엇을 부탁할 것인가」가 희소해집니다. AI가 저렴해질수록 「좋은 의뢰를 만들 수 있는 사람」이 강해집니다. AI가 오래 일할 수 있을수록 「멈추는 법」과 「보는 법」을 설계할 수 있는 사람이 필요해집니다.

흥미로운 점은, 이 이야기가 Fable 5의 발표만으로 갑자기 튀어나온 것이 아니라는 사실입니다.

발표 5일 전, 동일한 연구자는 새로운 책에 관한 기사에서 co-intelligence (공동 지능)의 단계가 끝나가고 있다고 썼습니다.

이전의 AI는 인간을 중심으로 둔 협업 상대였습니다. 인간이 질문하고, AI가 답하며, 인간이 자신의 지식이나 회의론을 더하며 진행하는 방식이었습니다. AI는 보조 역할이었습니다.

하지만 AI 기업들이 장기적으로 목표로 했던 것은, 더욱 자율적으로 경제적 가치가 있는 일을 수행하는 에이전트 (Agent)입니다. 코딩 에이전트가 먼저 그 변화를 보여주었으며, 같은 현상이 다른 분야로도 확산될 것입니다.

그 기사에서는 앞으로의 질문으로, 언제 AI의 도움을 거부해야 하는가, 언제 열쇠를 넘겨주어야 하는가, AI가 독자나 비평가, 혹은 분배의 문지기(Gatekeeper)가 되었을 때 인간은 어떻게 일할 것인가라는 문제를 꼽았습니다.

그리고 5일 후, Fable 5가 나왔습니다.

이것은 우연이라기보다, 동일한 변화를 다른 각도에서 바라본 것이라고 생각합니다.

AI는 이제 단순한 대화 상대만이 아닙니다.

독자가 됩니다. 조사원이 됩니다. 구현자가 됩니다. 검사역이 됩니다. 때로는 다른 에이전트를 호출하는 관리자처럼 행동하기도 합니다.

그때, 인간은 무엇을 하는가.

Fable 5는 이 질문을 구체적인 형태로 던지고 있습니다.

물론, 위탁에는 청구서가 따릅니다.

첫 번째는 금전적인 청구서입니다.

Fable 5는 비쌉니다. 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러입니다. 연구자의 체험기에서도 토큰 소비가 매우 커서 실운용 비용이 상당할 것이라고 적혀 있습니다.

다만, Krieger 씨의 관점에 따르면 비용을 측정하는 방식 자체가 복잡해지고 있습니다. 한 번의 상호작용에 얼마가 드는가뿐만 아니라, 만족스러운 결과에 도달하기까지의 총비용을 볼 필요가 있습니다. 저렴한 모델로 몇 번이고 "그게 아니라, 내가 말하고 싶었던 건"이라며 대화를 주고받는 것보다, Fable 같은 모델이 단 한 번에 목표에 가까운 지점까지 간다면 후속 상호작용을 줄일 수 있습니다. 기업 도입에 대해서도 그는 단계를 나누어 보고 있습니다. 처음에는 회사가 AI 코딩을 사용하게 하는 단계. 다음은 누가 많이 사용했는지를 랭킹화하는 단계. 거기에는 좋지 않은 유인 (Incentive)도 생겨납니다. 그 너머에는 잘 사용하고 있는 사람을 찾아내어 자원과 명확한 흐름을 부여하는 단계에 진입합니다. Fable 같은 모델은 특히 그 세 번째 단계에서 의미를 갖는다는 해석입니다.

하지만 금액보다 더 큰 청구서가 있습니다.

그것은 바로 '보이지 않음'입니다.

Fable 5와 같은 모델은 긴 작업 과정 속에서 수백 개의 작은 판단을 내립니다. 어떤 자료를 읽을 것인가. 어떤 에이전트를 호출할 것인가. 어떤 구현 방침을 채택할 것인가. 어떤 결과를 신뢰할 것인가. 어디를 뒤로 미룰 것인가.

인간은 이 모든 것을 보고 있지 않습니다.

모두를 보기에는 시간이 너무 많이 걸립니다. 애초에 보기 위해 위탁한 것이 아닙니다. 그래서 마지막에 결과를 확인합니다. 필요하다면 수정을 지시합니다.

여기에 위탁의 기괴함이 있습니다.

편리한데 불안합니다.

잘 진행되고 있는데, 중간 과정을 알 수 없습니다.

자신의 의도는 전달되고 있는 것처럼 보이지만, 중간의 판단 과정에는 참여하지 못합니다.

이러한 블랙박스 (Black box) 성질은 인터페이스가 미성숙하기 때문에 일시적으로 발생하는 현상일지도 모릅니다. 미래에는 더 나은 가시화나 중간 개입 방법이 나올 수도 있습니다.

하지만 반대의 가능성도 있습니다.

모델이 강력해질수록 인간이 의미 있는 형태로 중간에 참여할 수 있는 장면은 줄어들고, 블랙박스 성질은 능력에 따른 대가로 남게 됩니다.

저는 적어도 일부 업무에서는 후자에 가까워질 것이라고 생각합니다.

서두의 Zenn 기사로 돌아가겠습니다.

스마트폰에서 AI에게 일을 던질 수 있게 만든 사람은 왜 지쳤는가.

휴식 시간이 업무로 대체되었기 때문입니다.

멈춰야 할 시점을 놓쳤기 때문입니다.

그리고 AI의 출력이 옳은지 그른지는 결국 스스로 판단해야 했기 때문입니다.

여기서 Fable 5의 이야기로 연결됩니다.

AI가 더 오래 일할 수 있게 되면 인간의 작업 시간은 줄어들지도 모릅니다. 하지만 인간의 책임은 사라지지 않습니다.

오히려 확인의 부하 (Load)는 더 무거워질 수 있습니다.

작은 답변이라면 읽기 쉽습니다. 코드 몇 줄이라면 보면 알 수 있는 것도 많습니다.

하지만 9시간 반에 걸쳐 만들어진 연구용 소프트웨어를 확인하는 것은 전혀 다른 차원의 일입니다. 2,200건 이상의 항공편과 여러 교통수단을 조사한 지도 앱을 받아보는 것도 쉽지 않은 일입니다.

AI가 거대한 결과물을 만들어낼수록, 인간은 단순히 '전부 세밀하게 읽는 것'만으로는 따라잡을 수 없습니다.

확인 설계 (Verification design)가 필요해집니다.

어디를 중점적으로 볼 것인가.

어떤 테스트를 통과시킬 것인가.

어떤 전제만큼은 반드시 확인할 것인가.

어떤 실패까지는 허용할 수 있는가.

어느 지점에서 인간 전문가에게 되돌릴 것인가.

위탁 시대의 인간은 작업자라기보다 수령인 (Receiver)에 가까워집니다. 하지만 받는 것 또한 결코 쉬운 일이 아닙니다.

여기서 조금 냉소적인 시각도 덧붙여두고 싶다.

Fable 5의 발표에 대해, 어떤 비판가는 Mythos는 너무 위험해서 내놓을 수 없다고 말해놓고, 결국 가드레일 (Guardrail)을 달아서 내놓은 것 아니냐고 비판하고 있다. 2019년의 GPT-2 때도 위험성을 강력하게 내세워 주목을 끌고, 최종적으로 공개하는 흐름이 있었다. 이번에도 "겁을 주고, 분위기를 띄운 뒤, 내놓는다"의 반복이 아니냐는 시각이다.

이 비판을 그대로 전면적으로 받아들일 필요는 없다.

Mythos-class의 사이버 능력이나 생물학 영역의 이중 용도 (Dual-use) 리스크가 현실에 존재한다면, 안전책을 마련하여 단계적으로 공개하는 것에는 의미가 있다. 일반 공개 버전에서는 위험한 요청을 판별하여 별도의 모델로 돌리고, 제한이 더 적은 Mythos 5는 Project Glasswing 등에 한정하는 설계도 단순한 홍보라고 단정 지을 수는 없다.

한편으로, 상업적인 맥락을 무시하는 것도 위험하다.

최첨단 모델은 연구 성과인 동시에 상품이다. 위험성에 대한 설명은 안전상의 필요이기도 하지만, 주목을 끄는 서사 (Narrative)가 되기도 한다. 강력한 모델을 내놓는 것은 사용자 확보, 기업 도입, 투자자를 향한 시그널이 된다.

그러므로 두 가지 방식으로 읽는 것이 좋다.

하나는 능력이 정말로 향상되었다는 관점.

다른 하나는 그 능력이 어떻게 포장되고, 어떻게 팔리며, 어떤 조건으로 시장에 나오는지를 보는 관점이다.

Fable 5는 이 두 가지가 동시에 일어나고 있는 발표다.

또 하나, 위탁의 이면에 있는 이야기가 있다.

고도화된 AI를 만들기 위해서는 인간의 판단이 대량으로 필요하다. 보도에 따르면, Anthropic은 외부 프로젝트를 통해 약 1,000명의 엔지니어에게 실무 품질의 코드를 평가하게 하고, 태스크 (Task)당 약 280달러를 지급했다고 한다.

이는 "AI가 인간을 불필요하게 만든다"는 단순한 이야기와 반대로 보인다.

AI가 강해질수록, 어떤 코드가 정말 좋은지, 어떤 답변이 쓸모 있는지, 어디가 위험한지를 판단할 수 있는 인간의 기준이 필요해진다.

Zig가 AI 유래의 기여에 신중한 태도를 취하고, Linux가 인간의 서명 책임을 요구하며, Cloudflare가 AI를 통한 초기 리뷰를 사용하는 것. 이러한 움직임도 같은 방향을 향하고 있다.

AI가 만들 수 있는 범위가 넓어질수록, 인간은 "만드는 사람"에서 "표준을 가진 사람"으로 이동한다.

업무가 편해진다기보다, 책임의 위치가 바뀌는 것이다.

일본의 직장 환경을 생각하면, 이 변화는 매우 크다고 본다.

특히 수탁 개발이나 SIer(시스템 통합)적인 업무에서는 "인월 (Man-month)"이라는 단위가 오랫동안 사용되어 왔다. 사람이 몇 명, 몇 달간 일하는가로 견적을 낸다. 좋든 싫든 작업 시간과 가격이 결합되어 있었다.

하지만 AI 에이전트 (Agent)가 "맡길 수 있는 작업 시간"을 가지기 시작하면, 이 전제가 흔들린다.

인간 팀이 2개월 걸릴 이전을 AI가 하루 만에 진행하는 사례가 나오기 시작하면, 견적의 언어는 바뀌지 않을 수 없다.

물론 모든 안건이 그렇게 되는 것은 아니다. 요건 정의, 고객 조율, 기존 시스템의 이해, 인수 판단, 운용 책임, 장애 대응은 남는다. 오히려 그 부분이 더 무거워질 가능성도 있다.

다만, "몇 인월로 만드는가"만으로는 설명할 수 없는 업무가 늘어난다.

AI에게 몇 시간을 맡길 것인가.

인간이 어느 정도의 입도 (Granularity)로 확인할 것인가.

어떤 리스크는 AI에게 넘기지 않을 것인가.

어디에서 고객의 승인을 받을 것인가.

이러한 설계가 견적의 중심에 들어오게 될 것이다.

또 하나, 일본의 조직에서는 "과정이 보이는 것"이 중시되는 경향이 있다.

품의, 보고, 의사록, 리뷰, 승인. 결과뿐만 아니라 어떻게 판단했는지가 질문된다.

하지만 Fable 5와 같은 에이전트는 도중에 방대한 판단을 내린다. 그 모든 것을 인간이 쫓는 것은 현실적이지 않다.

그렇다면 과정이 보이기 어려운 위탁을 조직에서 어떻게 받아들일 것인가.

답은 AI의 모든 사고 과정을 들여다보는 것이 아니라고 생각한다.

필요한 것은 인간이 확인할 수 있는 중간 산출물이다.

설계 메모.

조사 로그.

테스트 결과.

전제 목록.

미확인 사항.

변경 차분 (Diff).

실패한 시도.

인간이 봐야 할 지점을 AI가 내놓게 한다. 그 부분을 리뷰한다. 책임 있는 인간이 승인한다.

위탁 시대의 품의는 AI의 작업 로그를 전부 읽는 것이 아니라, 책임을 질 수 있는 형태로 성과를 분리해내는 것이 될 것이다.

마지막으로, 가장 중요한 것을 쓰겠다.

앞으로 필요해지는 것은 AI에게 위탁하는 기술만이 아니다.

AI에게 위탁하지 않는 판단이다.

욕실에서 AI 입구를 없앤 사람은 효율을 낮추는 판단을 했다. 스마트폰에서 명령할 수 있는 구조를 없애는 것은 단기적으로는 불편하다. 공들여 만든 것을 버리는 것은 아까운 일이다.

하지만, 그로써 인간의 여백을 지켜냈다.

이 판단은 무겁다.

AI 에이전트 (AI Agent)는 강력한 엔진이다. 강력한 엔진을 탑재할수록 브레이크나 서스펜션, 좌석을 설계하지 않으면 먼저 망가지는 것은 탑승자 쪽이다.

속도를 높이는 방안은 얼마든지 있다.

하지만 어디에서 손대지 않을 것인가. 언제 리뷰하지 않을 것인가. 어느 시간에는 AI에게 의뢰하지 않을 것인가. 어떤 업무는 인간이 직접 움직일 것인가. 어떤 판단은 다음 날로 미룰 것인가.

여기까지 포함하여 설계하지 않으면, 위탁은 생활을 침식한다.

AI 활용의 성숙은 사용하는 양을 늘리는 것이 아니다.

맡길 것과 맡기지 않을 것을 구분하는 것이다.

Fable 5는 아직 모든 사람이 일상적으로 사용하는 모델은 아닐지도 모른다. 비싸다. 다른 모델로의 전환도 있다. 안전 제한 (Safety constraints)도 있다. 장시간의 에이전트 작업을 잘 설계하기 위해서는 아직 인간 측의 준비가 필요하다.

그럼에도 불구하고, 방향은 보였다.

AI는 한 번의 답변을 돌려주는 상대에서, 덩어리가 큰 일을 맡기는 상대로 변해가고 있다.

그때, 인간의 역할은 변한다.

명령을 잘하는 사람만으로는 부족하다.

무엇을 맡길지를 결정하는 사람.

맡기기 전에 성과에 대한 정의를 만드는 사람.

도중에 확인해야 할 것을 설계하는 사람.

마지막에 책임을 지고 받아내는 사람.

그리고, 맡기지 않을 용기를 가진 사람.

이것이 위탁 시대의 업무다.

AI가 오면 일자리가 없어지는가, 라는 질문은 여전히 남아 있다. 하지만 그보다 조금 앞선, 훨씬 더 실무적인 질문이 있다.

당신은 이미 AI에게 업무를 위탁하기 시작했다.

그렇다면, 위탁자로서의 책임을 어떻게 설계할 것인가.

Fable 5가 보여준 것은 바로 그 질문이라고 생각한다.

참고 링크:

  • Anthropic: Claude Fable 5 and Claude Mythos 5
  • Ethan Mollick: What it feels like to work with Mythos
  • Ethan Mollick: Co-Existence and the End of Co-Intelligence
  • Ethan Mollick: Management as AI superpower
  • METR: Task-Completion Time Horizons of Frontier AI Models
  • Zenn: 어디서든 AI로 일을 할 수 있게 만들었지만, 지쳐서 그만둔 이야기
  • Gary Marcus: The revenge of Claude Mythos
  • ZDNET Japan: Anthropic, 「Mythos」의 일반 사용자용 모델 「Claude Fable 5」를 출시

📚 AI Watch 에서는 최첨단 AI 연구·프로덕트·개발 현장을 1차 정보로부터 심층 분석하고 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0