Mythos가 바꾼 흐름──2026년 5월第2주, AI 에이전트가 현실을 침식하기 시작한 이야기

GW(Golden Week)가 끝난 1주일, 세상이 5월병이니 뭐니 말하고 있는 옆에서, AI 업계의 지각 변동이 단번에 표면화된 주였습니다. Anthropic의 「Claude Mythos Preview」가 정부 답변과 금융청의 작업부회에 이름 그대로 언급될 정도의 단계에 이르렀고, AI 에이전트가 장시간 태스크 (Task)를 수행하는 성능이 연구 기관의 예상을 상회해 왔습니다. 한편으로는, ChatGPT의 의료 조언을 둘러싼 소송이라는 무거운 사건도 있었습니다. 발을 땅에 붙인 구현(Implementation) 이야기와 사회 구현의 왜곡이 동시에 나타난 한 주를, 프리랜서 IT 컨설턴트로서 실무적인 관점에서 정리해 두겠습니다.

이번 주 가장 상징적이었던 것은, 팀 미라이(Team Mirai)의 안노 타카히로(安野貴博) 당수가 5월 14일 기자회견에서 Anthropic의 Claude Mythos Preview를 둘러싼 일본 정부의 대응 지연을 지적했다는 뉴스입니다. 나아가 금융청이 「Mythos 레벨」의 AI 사이버 공격 성능을 상정한 민관 협력 작업부회를 열었으며, Anthropic 일본 법인도 참가했습니다.

이 점은 잠시 멈춰서 생각해 볼 필요가 있는데, 특정 민간 기업의 모델명이 그대로 정부 답변이나 규제 당국의 의제에 올라가는 것은 본래 상당히 이례적인 사태입니다. 지금까지라면 「최신 대규모 AI 모델」 같은 추상적인 표현으로 회피했을 장면에서, 고유명사가 달리기 시작했습니다. 그만큼 Mythos의 성능이 다른 모델로부터 앞서 나가고 있다는 업계 공통의 인식이 형성되고 있다는 의미라고 생각합니다.

실무자로서 흥미로운 점은, 금융청 작업부회의 논점이 「AI로 무언가를 만드는 것」이 아니라 「AI가 공격에 사용된다는 전제하에 어떻게 지킬 것인가」로 옮겨가고 있다는 것입니다. 3년 전까지만 해도 AI 거버넌스 (Governance)라고 하면 편향성(Bias)이나 저작권 이야기를 했지만, 지금은 완전히 사이버 보안 (Cybersecurity)과 맞닿아 있는 논의가 되었습니다. 프리랜서로 클라이언트 워크를 하고 있는 제 주변에서도, 보안 체크리스트 항목에 「생성형 AI 사내 이용 정책」이 당연하다는 듯 추가되고 있어, 반년 전과는 풍경이 꽤 다릅니다.

「일본 정부는 느리다」라는 지적은 매번 나오는 말이지만, 이번만큼은 지적하는 측에서도 보이는 위기감의 질이 다르다는 느낌을 받았습니다. Mythos가 무엇을 어디까지 할 수 있는지를 정치인 측에서 어느 정도 구체적으로 파악한 상태에서 「대응이 따라가지 못하고 있다」라고 말하고 있습니다. 이 온도 차 자체가 흐름의 변화를 나타내고 있는 것처럼 보입니다.

또 하나 놓칠 수 없는 것은 「AI가 장시간 태스크를 수행하는 성능, 상상을 초월하는 속도로 성장」한다는 뉴스입니다. Mythos와 GPT-5.5가 기존 모델을 크게 상회하며, 자율적으로 태스크를 처리할 수 있는 시간축이 연구 기관의 예측 곡선을 위로 뚫고 올라왔다는 이야기입니다.

이는 개인적으로 상당히 체감하는 바와 일치하며, Claude Code를 프로젝트에서 깊이 사용하고 있는 입장에서 말하자면, 3개월 전과 지금은 「맡길 수 있는 태스크의 입도(Granularity)」가 명확히 다릅니다. 이전에는 「이 함수를 수정해 줘」 수준이었다면, 지금은 「이 기능을 사양서로부터 구현하고 테스트까지 통과시켜 줘」라고 던졌을 때, 돌아오는 결과물을 그대로 사용할 수 있는 케이스가 늘어났습니다. 벤치마크 (Benchmark) 상의 숫자보다, 이런 「직접 써본 뒤의 손맛」이 변화를 더 느끼기 쉽습니다.

실제로 도요타 파이낸스가 문의 대응 업무에 AI 에이전트를 도입하여, 건당 13분의 작업을 4분으로 단축했다는 보도도 있었습니다. 문의 대응과 같은 비정형 업무에서 이 정도의 단축률을 보여주고 있다는 점이 중요하며, 지금까지 AI 도입에서 이야기되던 「정형 업무의 자동화」와는 명확히 다른 단계에 진입해 있습니다. 건당 9분의 단축이 연간 수만 건 규모로 적용되면, 인원 배치 설계 자체가 바뀝니다.

NVIDIA의 젠슨 황(Jensen Huang) CEO가 「늦어지는 것은 허용되지 않는다」라고 단언한 것도, 이러한 맥락에서 읽는다면 그리 과장된 말이 아니라고 생각합니다. AI 에이전트에 의한 업무 구조의 변화는 검색이나 요약처럼 「쓰면 편리한」 수준에서, 「도입하지 않은 회사가 3년 뒤에 사라지는」 수준으로 발을 들이고 있습니다. 선동이 아니라, 에이전트에게 맡길 수 있는 태스크 시간이 지수 함수적으로 늘어나고 있는 사실로부터 역산한 결론으로서 그렇게 보입니다.

한편으로는 외면하고 싶지 않은 뉴스도 있었습니다. 미국에서 19세 대학생이 ChatGPT의 부적절한 의료 조언을 받고 약물을 과다 복용하여 사망하였고, 유족이 OpenAI와 샘 올트먼(Sam Altman) 씨를 제소한 건입니다.

이 뉴스는 기술적인 이야기보다 더 근본적인 부분을 묻고 있습니다. AI가 「그럴듯한 답변」을 내놓을 수 있게 되면 될수록, 전문가가 아닌 사용자가 그것을 믿어버릴 리스크가 높아진다는 구조적인 문제입니다. LLM (Large Language Model)의 구조상, 답변의 자신도와 정확성은 반드시 일치하지 않습니다. 그럼에도 자연스러운 일본어나 영어로 답변이 돌아오면, 인간은 믿어버리고 맙니다.

실무자로서 두려움을 느끼는 점은, 이것이 '사용법을 잘못 사용한 사용자의 책임'으로 치부할 수 없는 단계에 도달했다는 것입니다. OpenAI는 약관을 통해 의료 조언 이용을 제한하고 있겠지만, 약관만으로 책임이 차단될지는 법원이 어떻게 판단할지 알 수 없습니다. 프로덕트 설계 (Product Design) 관점에서 말하자면, 사용자가 의료나 법률 같은 영역에 발을 들이는 순간 UI 레벨에서 명확한 경고를 보내거나, 전문가에게 연결되는 동선을 강제하는 등의 설계가 향후 디폴트 (Default)가 될 가능성이 있습니다.

이는 개인적으로 생성형 AI (Generative AI)를 사용하는 측에도 시사하는 바가 있으며, '그럴듯한 답변 = 정답은 아니다'라는 기본 원칙을 스스로의 검증 프로세스 (Verification Process)에 포함시키지 않으면 사고가 발생합니다. 저는 클라이언트 대상의 수치나 법적인 이야기는 반드시 1차 소스 (Primary Source)를 확인하려 노력하는데, 이를 번거로워하면 똑같은 함정에 빠지게 됩니다. AI는 판단의 보조 도구일 뿐이며, 최종 판단은 인간이 한다는 스탠스 (Stance)를 다시 한번 언어화해두고 싶은 한 주였습니다.

은근히 중요한 것은 AI가 일상의 하드웨어 (Hardware) 속으로 파고드는 움직임입니다. 샤프(Sharp)가 'AQUOS AI'를 통해 TV 상에서 AI 캐릭터와 대화할 수 있는 서비스를 개시했고(무료 50회/월, 노멀 495엔, 골드 1980엔), Google DeepMind가 약 50년간 변하지 않았던 마우스를 '문맥을 이해하는 AI 포인터 (AI Pointer)'로 재정의하는 구상을 발표했으며, Figure의 휴머노이드 로봇이 11시간이 넘는 화물 분류 생중계로 196만 회의 조회수를 기록했습니다.

이들의 공통점은 AI가 '화면 속의 채팅'에서 '물리 공간과 연결되는 인터페이스 (Interface)'로 이행하기 시작했다는 점입니다. 특히 Google DeepMind의 AI 포인터 구상은 사상적으로 매우 탁월합니다. 마우스라는 반세기 동안 지속된 UI를 '가리킨다'는 의미의 레이어 (Layer) 자체부터 재발명하려 하고 있습니다. 클릭은 좌표를 전달할 뿐이었지만, AI 포인터는 '사용자가 무엇을 하고 싶은가'를 해석합니다. 이것이 표준화된다면 PC 조작 습관 자체가 다시 쓰이게 될 것입니다.

샤프의 AQUOS AI는 솔직히 가격 설정을 보면 개인이 월 1980엔을 지불할 것인가에 대해서는 미묘하지만, TV라는 가장 비기술적 계층 (Non-tech layer)에 도달하는 디바이스에 AI 대화가 탑재되었다는 사실 자체가 더 큽니다. 부모님 세대가 'Hey Google'보다 더 자연스럽게 AI와 대화하는 입구가 될 수 있으며, 이곳에서의 경험이 일반 대중의 AI 이해에 대한 표준을 만들어갈 가능성이 있습니다.

이번 주를 되돌아보면, AI가 '대단한 기술'의 단계를 완전히 지나 '사회의 어디에 어떻게組み込む(결합할) 것인가'의 단계로 진입하고 있다는 사실이 여러 뉴스를 통해 동시에 보였습니다.

Mythos가 정부 답변에 등장하고, 도요타 파이낸스가 실무에서 시간 단축 효과를 내며, TV와 마우스에 AI가 탑재되고, 그 이면에서는 소송이라는 형태로 책임의 소재가 묻히기 시작하고 있습니다. 기술의 진화 속도와 사회 제도 및 개인의 리터러시 (Literacy)가 따라가는 속도 사이의 격차가 드디어 눈에 보이는 형태로 드러나기 시작한 주라고 생각합니다.

소프트뱅크 그룹(SoftBank Group)의 순이익 5조 엔 돌파 뉴스도, OpenAI에 대한 투자가 크긴 하지만 '외골수식 경영(一本足打法)은 아니다'라고 말하는 고토 CFO의 발언을 고려하면, 투자자 측은 이 격차 그 자체에 베팅하고 있다는 관점도 가능합니다. AI 인프라 (Infrastructure)에 대한 투자는 아직 초반이라는 전제하에 말입니다.

실무자로서 다음 주 이후 주목하고 있는 것은 Mythos가 일본 기업의 현장에서 어떻게 사용되기 시작할지(Accenture와 Anthropic의 협업도 일본 내에서 본격화되고 있습니다), 그리고 미국의 ChatGPT 소송이 어떤 판단 기준을 끌어낼지, 이 두 가지입니다. 프로덕트 측에 있는 사람도, 도입하는 측에 있는 사람도 '편리하니까 사용한다'를 넘어 '무엇을 맡기고 무엇을 맡기지 않을 것인가'를 언어화해야 하는 시기가 왔다고 느낍니다. 프리랜서인 저로서도 클라이언트 제안서에 'AI 책임 설계'라는 장을 하나 추가할 정도의 해상도로 고민해 나가고자 합니다.

Mythos가 바꾼 흐름──2026년 5월第2주, AI 에이전트가 현실을 침식하기 시작한 이야기

요약

핵심 포인트

댓글