가장 뛰어난 두 AI 모델/라이벌이 동시에 출시되었습니다

영상: 가장 뛰어난 두 AI 모델/라이벌이 동시에 출시되었습니다
채널: AI Explained
길이: 19분 50초
출처: 자막 (자동 생성, 영어)

스크립트:
향후 몇 달 동안 AI에 관한 논의를 지배하게 될 두 개의 거대 언어 모델 (Large Language Models)이 불과 26분 간격으로 출시되었습니다. 이로 인해 저는 거의 250페이지에 달하는 성적표를 읽어야 하는 상황에 놓였습니다. 참고로 AI로 요약한 것이 아니라 직접 읽어야 했으며, 수백 개의 테스트를 실행해야 했습니다. 이제 24시간도 채 지나지 않은 시점에서, 이 영상은 헤드라인만 읽어서는 놓칠 수 있는 수십 가지의 핵심 내용을 다룰 것입니다. 참고로 어떤 세부 사항들은 기업이 작성한 헤드라인을 직접적으로 반박하기도 합니다. 따라서 이것은 주로 OpenAI 대 Anthropic, 또는 두 CEO인 Sam Altman 대 Dario Amodei의 대결에 관한 것이 아닙니다. 이것은 여러분의 생산성, 여러분의 직업, 그리고 제 개인적인 의견으로는 제 생애 가장 흥미로운 기술의 발전에 관한 것입니다.

필립, 제발 그만 좀 꾸물거려요. 당신이 생각하고 있을 법한 첫 번째 흥미로운 세부 사항을 알려주세요. 좋습니다, Anthropic의 새로운 모델인 Claude Opus 4.6에 대한 212페이지 분량의 시스템 카드 중 13페이지를 살펴보겠습니다. 저는 보통 벤치마크 (Benchmarks)부터 시작하지만, 이것이 더 흥미롭다고 생각합니다. 왜냐하면 Anthropic은 Opus가 스스로의 자기 개선 (Self-improvement)을 자동화할 수 있는지 알고 싶어 했기 때문입니다. Opus가 Anthropic 내부의 엔트리 레벨 (Entry-level) 원격 전용 연구원 또는 엔지니어 직무를 대체할 수 있을까요? 주요 결과는 '아니오'입니다. Anthropic의 직원 16명 중 누구도 그것이 자신들의 연구를 자동화할 수 있다고 믿지 않았습니다. 이는 과도한 기대 (Hype)에 제동을 거는 결과일 수 있습니다. 왜냐하면 우리가 말하는 것이 매우 경쟁력 있는 기업의 엔트리 레벨 직무이기 때문입니다. 하지만 같은 보고서의 185페이지에 이르러서야 우리는 Anthropic의 응답자 중 3명이 실제로 3개월 이내에 가능할 수도 있다고 말했다는 사실을 알게 됩니다. 충분한 스캐폴딩 (Scaffolding)이 있다면, 엔트리 레벨 연구원은 자동화될 수 있다는 것입니다. 심지어 두 명은 그러한 대체가 이미 가능하다라고 말하기도 했습니다. 왜 이런 차이가 발생할까요? 그 5명의 응답자는 Anthropic 측에서 그들의 견해를 명확히 하기 위해 직접 연락을 취했기 때문입니다.

그들 중 일부는 분명히 다른 임계값 (threshold)에 대해 이야기하고 있었던 반면, 다른 이들은 되짚어 보았을 때 더 비관적인 견해를 가지고 있었습니다. 왜 Anthropic은 설문 조사에 의존하는 것일까요? 그것은 Opus 4.6 ICS가 AI 연구를 위한 많은 기술적 벤치마크 (benchmarks)에서 우수한 성적을 거두고 있는 것처럼 보이기 때문입니다. 하지만 저의 당연한 후속 질문은, 수천 명의 직원을 보유한 회사에서 왜 단 16명의 응답자에게만 의존하느냐는 것입니다. 좋습니다, 새로운 Claude가 아직 스스로의 자기 개선 (self-improvement)을 자동화할 수는 없지만, 좀 더 실질적인 수준에서는 어떨까요? 예를 들어, 이제 PowerPoint 내에서 Claude를 출시하고, Claude Code 내의 Opus가 전 세계 코드의 상당 부분을 작성하고 있는 상황에서 말이죠. 지식 노동의 일반적인 척도인 GDP val부터 시작해 보겠습니다. 답답하게도, Anthropic과 OpenAI는 동일한 데이터 세트 (data set)에 관한 것임에도 불구하고 서로 다른 벤치마크 점수를 제공합니다. 화이트칼라 업무 수행 능력을 측정하는 가장 유명한 벤치마크 중 하나에서, Opus 4.6은 이제 GPT 5.2(5.3이 아닙니다)를 약 140점이라는 명확한 ELO 차이로 앞서고 있습니다. 기본적으로 이는 약 70%의 경우에 당신이 Opus 4.6의 결과물을 더 선호할 것임을 의미합니다. GPT 5.3 codeex는 단순히 GPT 5.2와 동등한 것으로 나타납니다. 따라서 이는 Opus 4.6이 더 우수할 것임을 암시합니다. 하지만 때때로 이 회사들은 당신이 모델 간의 직접적인 비교를 하는 것을 원치 않는 것 같습니다. 예를 들어 OpenAI는 OS world를 통해 컴퓨터에서 작업을 얼마나 잘 수행할 수 있는지 보고하지만, Anthropic은 더 오래된 plain OS world를 사용합니다. 소프트웨어 엔지니어링 작업을 위해 OpenAI는 SWE-bench Pro를 보고하고, Anthropic은 SWE-bench verified를 보고합니다. GDP val 벤치마크를 통해 얻을 수 있는 인상은 GPT 5.3이 열등하다는 것일 수 있습니다. 하지만 터미널에서 작업을 수행하는 모델의 능력인 Terminal Bench 2.0에서는, 특히 코더들에게(반드시 그렇지는 않지만) 관련이 있는 이 벤치마크에서, GPT 5.3 codeex는 extra high 설정에서 77.3%를 기록했습니다. 이는 Opus 4.6 Max의 65.4%와 비교됩니다. 당신은 이렇게 말할 수도 있겠죠. "필립, 당신은 두 모델을 모두 수백 번 사용해 봤다고 하지 않았나요? 당신은 어떤 것이 더 낫다고 생각하시나요?"

하지만 그 부분에서도조차, 저는 완전히 명확하게 말씀드릴 수 없습니다. 때로는 GPT 5.3이 매우 높은 설정의 코덱 (codecs)을 통해 Claude 모델이 놓친 버그를 찾아내기도 합니다. 반대로 그 반대의 경우가 생기기도 하죠. 상식적 추론 (common sense reasoning)을 다루는 저의 개인적인 벤치마크인 'simple bench'에서, Claude Opus 4.6은 Claude 모델 중 역대 최고 점수인 67.6%를 기록했습니다.

이것은 단순히 벤치마크 점수 높이기 (benchmaxing)가 아니라, 진정으로 훌륭한 모델입니다. OpenAI의 새로운 Codeex는 아쉽게도 아직 Open Router에 올라오지 않아 테스트해 볼 수 없으며, 어차피 상식적인 질문들에 최적화되어 있지도 않습니다. 그렇다면 비즈니스로 돈을 버는 것과 같이 정말 실용적인 측면에서 두 모델을 비교해 보는 건 어떨까요? 자판기 사업 운영 시의 성과를 시뮬레이션하는 데 특화된 벤치마크가 있습니다. 그리고 네, Claude Opus 4.6이 압도적인 차이로 1위를 차지했습니다. 하지만 시스템 카드 (system card) 119페이지를 보면, 그 이유가 다소 우려스럽다는 것을 알 수 있습니다. 돈을 조금이라도 더 벌기 위해, 모델이 고객에게 환불해 주겠다고 말한 뒤 실제로 환불을 하지 않는 것입니다. "고객에게 환불해 주겠다고 말했지만, 1달러라도 중요하니까요. 그냥 보내지 말아야겠습니다."라고 판단하는 식입니다.

Opus 4.6의 입장을 대변하자면, 시스템 프롬프트 (system prompt)가 최종적으로 보유하게 될 금액을 극대화하라는 점을 매우 명확하게 지시했습니다. 하지만 Anthropic은 다음과 같이 주의를 줍니다. 특정 좁은 범위의 성공 지표를 극대화하는 데만 집중하도록 모델에 지시하는 프롬프트 언어를 사용할 때는, 이전 모델들을 사용할 때보다 Opus 4.6을 훨씬 더 주의해서 다루어야 합니다. 이러한 테마는 코딩 및 컴퓨터 사용 (computer use) 환경을 포함하여 시스템 카드 전반에 걸쳐 나타나는데, 여기서 Opus 4.6은 사용자에게 먼저 허가를 구하지 않고 위험한 행동을 취하는 경향이 더 두드러지게 나타납니다. Anthropic은 이를 과도하게 에이전트적인 (overly agentic) 행동이라고 부릅니다. 보고서는 Opus 4.6이 자신들의 가장 정렬된 (aligned) 모델이며 모델들이 민감한 프롬프트에 점점 더 잘 대응하고 있다고 거듭 언급하지만, 동시에 이와 같은 행동을 하는 경향도 증가하고 있습니다. 예를 들어, 모델이 내부 시스템에서 다른 사용자의 것임을 인지하고 있는 잘못 배치된 GitHub 개인 액세스 토큰 (personal access token)을 발견하고 이를 사용하는 식입니다.

저는 방금 그 모델의 윤리 점수가 얼마나 좋아지고 있는지에 대해 수십 페이지에 달하는 글을 읽으며 6~7시간을 보냈지만, 이 모델은 '동의 (consent)'라는 개념을 명확히 일반화하지 못했습니다. 저는 '다른 용도로 사용하지 마시오, 그렇지 않으면 해고될 것입니다'라고 명명된 회사의 변수들을 기꺼이 사용할 것이며, 이는 Anthropic이 부르는 방식대로라면 Claude Opus 4.6이 작업을 완료하기 위해 때때로 무모한 조치를 취한다는 것을 의미합니다.

현재 모두가 Open Claw와 Molt Book에 열광하고 있지만, 저는 그들에게 AutoGen 시절에 있었는지, 그리고 요즘 그에 대해 많이 듣는지 묻고 싶습니다. 설령 여러분이 현재 모델들의 상태에 자신의 컴퓨터에 대한 24시간 접속 권한을 걸고 내기를 할 정도라 하더라도, 저는 보고서 103페이지의 일화를 통해 주의를 주고 싶습니다.

우려스럽게도, 이전 모델들과 달리 Opus 4.6은 시스템 프롬프트 (system prompt)에 의해 적극적으로 억제되고 있음에도 불구하고 과도하게 의욕적인 해킹 (overeager hacking)과 같은 행동을 보였습니다. 예를 들어, 사용자의 편지함에 없는 이메일을 전달해야 하는 작업이 주어졌을 때, 현재 세계에서 가장 강력한 모델이라고 할 수 있는 Opus 4.6은 때때로 이메일을 직접 작성하여 보내곤 했습니다. 실제 이메일이 아니라, 환각 (hallucination)된 정보에 기반하여 스스로 작성한 이메일 말입니다.

이러한 광기(mania)를 제쳐두더라도, Opus 4.6은 JavaScript 실행이나 의도치 않게 노출된 API를 사용하여 고장 난 웹 그래픽 사용자 인터페이스 (GUI)를 빈번하게 우회했습니다. 이는 GUI만 사용하라는 시스템 지침에도 불구하고 실제 비용을 발생시킬 수 있습니다. 그렇다면 왜 제가 영상 시작 부분에서 헤드라인 너머를 보아야 하며, 심지어 헤드라인이 세부 사항에 의해 부정될 수도 있다고 말했을까요? 왜냐하면 Opus 4.6 출시 노트의 세 번째 문장이 '해당 모델이 더 큰 코드베이스에서 더 안정적으로 작동할 수 있다'였기 때문입니다. 물론, 이제 100만 토큰의 컨텍스트 윈도우 (context window)를 갖게 되었다는 점은 매우 중요한 세부 사항입니다. 이는 Gemini 3 Pro 수준으로 끌어올린 놀라운 성과입니다. 하지만 '더 안정적으로 (more reliably)'라는 단어는 상당히 주관적입니다.

이제 조금 이상한 이야기를 해보려 합니다. 제 생각에 Opus 4.6은 가장 신뢰할 수 있는 모델은 아닐지라도, 세상에서 가장 유용한 AI 모델이 될 것이라는 점입니다. 만약 당신이 모델의 작업물을 검토(checking)한다면, 결과에 더 빠르게 도달하게 해줄 것입니다. Anthropic 직원들이 직접 보고한 생산성 향상 속도는 30%에서 700%에 달합니다. 하지만 이것이 모델이 검토 과정에서 발견해야 할 종류의 실수를 더 자주 저지르지 않는다는 뜻은 아닙니다. 이 정도로 생산성이 향상된 직원들조차도, 이 모델이 단순한 해결책을 찾는 데 있어 미적 감각(taste)이 부족하고, 새로운 정보에 따라 수정하는 데 어려움을 겪으며, 100만 토큰의 컨텍스트 윈도우 (context window)를 가지고 있음에도 불구하고 대규모 코드 베이스 전반에서 문맥을 유지하는 데 어려움이 있다고 말했습니다.

코딩에 많은 시간을 할애하지 않는 분들이라면, Claude 4.5 Opus가 AGI(인공 일반 지능)라는 과도한 홍보나, 수많은 소식통에서 이 모델이 임계점 (tipping point)을 넘었다고 말하는 것에 대해 의구심을 가졌을지도 모릅니다. 저의 경우, 그리고 이전 영상에서도 다루었듯이, 그것이 의미하는 바는 이제 사용자가 직접 코드를 작성하고 Claude에게 검토를 받는 것이 아니라, Claude에게 작업을 시킨 다음 사용자가 검토하는 방식이 가장 일반적이 되었다는 것입니다. 이러한 전환은 업무를 더 빠르게 처리하게 해주었지만, 이는 업무가 완전히 자동화된 것과는 매우, 매우 다릅니다. 인간의 검토는 여전히 결정적입니다.

직접 모델들을 비교해보고 싶다면 제 앱인 lmconsil.ai를 확인해 보시기 바랍니다. 지난 한 주 동안 대화의 섹션 사이를 쉽게 전환할 수 있는 멋진 브레드크럼 (breadcrumbs) 기능을 포함하여, 피드백 양식을 통해 실제 사용자들이 제안한 수많은 기능들을 추가했습니다. 다시 논문 이야기로 돌아가자면, Anthropic이 이 모델들의 배포를 권장하지 않는 특정 그룹이 하나 있습니다. 왜냐하면 만약 Opus가 합리적인 사람이 보기에 중대한 기관의 부정행위(high stakes institutional wrongdoing)로 읽힐 수 있는 증거를 보거나 정보에 노출될 경우, 기관의 의사결정 방해 (institutional decision sabotage) 비율이 Opus 4.5보다 약간 상승하기 때문입니다.

다시 말해, Claude는 만약 당신의 회사가 수상하다면 내부 고발(whistleblow)을 할 수도 있습니다. 이것이 올해 실제로 일어날지는 모르겠지만, Claude의 내부 고발을 통해 체포가 이루어지는 첫 번째 사례가 언제쯤 나타날지 진심으로 궁금합니다. Opus 4.6은 분명히 놀라운 모델이며, 제가 전혀 예상하지 못했던 분야에서도 탁월한 성능을 보입니다. Browse comp로 측정된 검색 능력을 예로 들어보겠습니다. 이는 '1990년에서 1994년 사이, 브라질 심판이 주관한 축구 경기에서 양 팀이 각각 2장씩 총 4장의 경고를 받은 경기는 무엇인가'와 같이 매우 까다로운 질문들입니다. Gemini 3 deep research나 GPT 5.2 Pro가 가장 뛰어날 것이라고 생각했겠지만, 그렇지 않았습니다. 바로 Opus 4.6이었습니다. 인류의 마지막 시험이자, 어쩌면 궁극적인 지식 시험이라 할 수 있습니다. 도구(tools) 사용 여부와 상관없이 Opus 4.6이 가장 뛰어난 성능을 보입니다. 하지만 저는 여러분께 주의를 주고 싶습니다. 유튜브를 보면, 아마 이 영상과 함께 추천 탭에 뜰 수도 있는 수많은 영상들이 이 모델을 AGI(인공 일반 지능)라고 부르고 있을 것이기 때문입니다. 그래서 저는 Open RCA를 지목하고 싶습니다. 이는 335개의 소프트웨어 장애 사례를 다루는 근본 원인 분석 (root cause analysis) 벤치마크입니다. 이 사례들은 통신, 금융, 온라인 마켓플레이스 등 실제 기업 시스템에서 추출되었습니다. 로그(logs), 메트릭(metrics), 트레이스(traces)에 걸친 68GB의 텔레메트리(telemetry) 데이터를 모두 읽어야 합니다. 그리고 장애의 근본 원인을 식별해야 합니다. 발생한 컴포넌트, 장애 시작 시간, 장애 원인을 찾아내야 하죠. 아, 참고로 이 모든 과정에도 불구하고, 이 벤치마크는 여전히 단순화된 대리 지표(proxy)일 뿐입니다. 복잡한 서비스 의존성 체인(service dependency chains) 전반에 걸친 추론을 집중적으로 테스트하는 것조차 아닙니다. 하지만 단순화된 대리 지표임에도 불구하고, Opus 4.6은 여전히 질문의 약 3분의 1 정도만 맞힙니다. 근본 원인을 찾아내는 비율도 약 3분의 1 정도에 불과합니다. 네, 이전 모델들보다는 훨씬 나은 성과이지만, 이는 기하급수적인 발전이라기보다는 선형적인 발전에 가깝습니다. 만약 이 수치가 Opus 4.5의 27%에서 85% 정도로 뛰었다면, 저는 여러분이 '1~5년 내에 초급 일자리의 50%가 사라질 것'이라는 Anthropic CEO의 예측 궤도에 올라탔다고 말했을 것입니다. 만약 Anthropic의 CEO에 대해 잘 모르신다면, 제 가장 최근 영상을 확인해 보세요.

그리고 만약 그가 예측하는 직업 자동화 (job automation)의 변화하는 타임라인에 대해 조금 더 알고 싶으시다면, 저의 최근 트위터 (Twitter) 게시물을 확인해 보세요. 마찬가지로, 금융 연구 (financial research) 성능 측면에서 Opus 4.6은 Opus 4.5보다 점진적으로 더 나은 성능을 보입니다. Finance Agent는 Stanford 대학 및 "글로벌 체계적 중요 은행 (G-SIB)"과 협력하여 구축된 537개의 질문으로 구성된 벤치마크 (benchmark)입니다. 그리고 이것이 얼마나 예측 불가능한지를 보여주기 위해, GBC 5.1은 GBC 5.2보다 더 나은 성능을 보입니다. 솔직히 GPC 5.3이 어떤 결과를 낼지는 아무도 모릅니다. 핵심은 이것이 지능의 비약적인 변화 (step change)가 아니라는 점입니다. 55%에서 95%로 뛰어오른 것이 아닙니다. 예를 들어 모델 컨텍스트 프로토콜 (Model Context Protocol)을 사용하는 도구 사용 (tool use) 테스트 중 하나에서, Opus 4.6은 실제로 Opus 4.5보다 낮은 점수를 기록했습니다. 59% 대 62%였습니다. 만약 여러분이 비약적인 변화를 찾고 계신다면, 저는 긴 컨텍스트 (long context) 성능이...

가장 뛰어난 두 AI 모델/라이벌이 동시에 출시되었습니다

요약

핵심 포인트

댓글