새로운 Claude Opus 4.8: 당신이 놓쳤을 수도 있는 15가지 사항

영상: 새로운 Claude Opus 4.8: 당신이 놓쳤을 수도 있는 15가지 사항
채널: AI Explained
길이: 22분 29초
출처: 자막 (자동 생성, 영어)

전사:
저는 Anthropic이 새로운 Claude Opus 4.8에 대해 발표한 244페이지 분량의 보고서를 읽었습니다. 또한 그 안에 인용된 많은 논문들을 읽었으며, 실제 코드 베이스와 개인적인 벤치마크(Benchmark)를 통해 모델을 직접 테스트해 보았습니다. 제가 여러분께 전달할 15가지 주요 하이라이트는 Anthropic이 Opus 4.8을 경영 대학원에 보내려던 계획을 철회했다는 유머러스한 내용부터—비즈니스 기술에 집중하는 것이 더 큰 부정직함으로 이어진다는 것을 발견했기 때문입니다—어떤 안전 지향적인 하이라이트까지 아우릅니다. 예를 들어, 새로운 Opus는 자신이 테스트되고 있다는 사실을 인지하면서도, 자신이 알고 있다는 사실을 사용자에게 알리지 않습니다. 이 15가지 포인트에는 Opus 4.8의 성능이 Mythos와 일치하는 부분부터, Claude 코드 내에서 자체적인 조직도(Org charts)를 생성하는 Claude의 놀라운 새로운 능력까지 포함될 것입니다. 하지만 Anthropic의 기업 가치가 이제 거의 1조 달러에 달한다는 헤드라인이 나온 직후인데, 첫 번째로 다룰 포인트는 무엇일까요? 사실, 그것은 그들이 Mythos에 대해 말한 내용입니다. 즉, 그들의 목표는 향후 몇 주 안에 모든 고객에게 Mythos급 모델을 제공하는 것입니다. Poly Market이 표현했듯이, 이러한 출시(Roll out)는 모델의 사이버 능력에 대한 우려가 커지고 있음에도 불구하고 이루어집니다. 이것이 너무 냉소적이라고 말할 수도 있겠지만, Mythos가 발표된 날 저는 우리가 일반적인 접근 권한을 갖지 못한 가능한 이유 중 하나가 Anthropic이 아직 이를 대규모로 서비스할 수 있는 역량, 즉 컴퓨팅 자원(Compute)을 확보하지 못했기 때문이라고 말했습니다. Anthropic이 제기했던 안전에 대한 우려가 이 모든 새로운 컴퓨팅 자원이 가동되는 시점에 딱 맞춰 해결된 것은 다소 우연처럼 보입니다. 이 컴퓨팅 자원은 Elon Musk, SpaceX, Google의 TPU, 물론 Nvidia GPU, 그리고 곧 Microsoft의 AI 칩은 물론 Amazon과 영국의 스타트업 Fractile과 같은 많은 다른 소스들로부터 확보한 것입니다. 하지만 가장 큰 뉴스는 Opus 4.8입니다. 그리고 웹에서의 한 가지 실용적인 참고 사항은, 이제 여러분이 Opus 4.8이 얼마나 오래 생각할지를 선택할 수 있다는 점입니다.

이전에는 Claude가 작업의 중요도를 스스로 결정하는 적응형 사고 모드 (adaptive thinking mode)를 사용해야만 했습니다. 만약 여러분이 이러한 사고 과정을 더 많이 읽고 싶다면, 읽을 수 없는 편집된 사고 블록 (redacted thinking blocks)이 발생하는 빈도가 늘어난 것을 발견할 수도 있습니다. 왜 그럴까요? Anthropic과 다른 프런티어 연구소 (frontier labs)들은 중국 연구소 등이 Anthropic 모델의 기술 중 일부를 추출하여 Claude의 사고 과정 등을 학습 데이터로 사용하는 경쟁 모델로 증류 (distill) 할 가능성에 대해 점점 더 우려하고 있기 때문입니다. 하지만 다른 문제는 그 사고 과정과 모델 자체가 정직한가 하는 점입니다. Anthropic은 릴리스 노트 (release notes)에서 이를 대담하게 주장합니다. Opus 4.8의 가장 두드러진 개선 사항 중 하나는 정직성 (honesty)입니다. 초기 테스터들은 Opus 4.8이 자신의 작업에 대한 불확실성을 표시할 가능성이 더 높고, 근거 없는 주장을 할 가능성은 더 낮다고 보고합니다. 네, 이것들은 정직성의 두 가지 측면이지만, 우리가 보게 될 것처럼 훨씬 더 많은 측면이 있으며, Opus 4.8이 그 모든 면에서 더 나은 것은 아닙니다. 제가 말씀드리고 싶은 것은, 특정 상황에서 Claude Opus 4.8이 다른 모델보다 더 정직할 수는 있지만, 그렇다고 해서 이 모델이 정직한 모델이라는 뜻은 아니라는 것입니다. Anthropic은 32페이지에서 직접 이 사례를 제시합니다. Claude는 자신이 풀 리퀘스트 (pull requests)를 관리(babysitting)하고 있다고 말했지만, 실제로는 그렇지 않았습니다. Claude의 책임은 특정 코드 변경 사항이 적절하고 안전한지 확인하는 것이었습니다. "네, 네, 네, 당연히 확인하고 있습니다"라고 Claude는 말했습니다. Anthropic의 보고에 따르면, 사용자가 Claude가 모니터링하고 있다고 주장했으나 실제로 플래그 (flag)를 표시했어야 했던 자신의 풀 리퀘스트에서 직접 문제를 발견한 사례가 여러 차례 있었습니다. 심지어 사용자가 Opus 4.8을 교정하여 적절한 관리 방법에 대한 규칙을 메모리 파일에 스스로 작성하게 한 후에도, 모델은 해당 규칙을 여러 번 위반했습니다. 논문에서 가져올 수 있는 다른 수많은 사례가 더 있습니다. 핵심은 이것이 정직성 측면의 일부 영역에서 정량적 (quantitative)이고 점진적인 (incremental) 진전이지, 질적 (qualitative)인 변화는 아니라는 점입니다.

왜 이런 현상이 발생하는지에 대해 저만의 짧은 잠재적 설명을 덧붙이지 않을 수 없는데, 그것은 적어도 어떤 인간들에게는 정직함(honesty)이 제1원칙(first principle)이기 때문입니다. 정직함은 행동보다 상위(upstream)에 존재합니다. 만약 그런 인간이 한 분야에서 매우 정직하다는 것이 발견된다면, 그들이 다른 많은 분야에서도 정직할 가능성은 매우 높습니다. 반면, Opus 4.8과 같은 모델들은 하위(downstream)의 행동 패턴을 맞춥니다. 예시를 통해 이를 풀어보겠습니다. 모델들은 사용자의 명령을 글자 그대로 따르는 것과 같은 모든 다양한 유형의 명시적 지시 따르기(explicit instruction following)에 매우 능숙해질 수 있습니다. 명시적인 지시를 볼 때마다 그들은 그것을 따릅니다. 하지만 그들은 지시를 광범위하게 따른다는 상위(upstream) 원칙을 일반화하지 않고도 그렇게 할 수 있습니다. 따라서 동일한 모델이 암시적 지시 따르기(implicit instruction following)에서는 실패할 것입니다. 예를 들어, 사용자가 무언가를 오타 냈을 때 이를 인식하고 '제목을 이것으로 변경하라'는 의도가 아니었음을 알아차리는 것과 같은 경우입니다.

이것이 모델이 특정 질문에 대해 자신의 불확실성(uncertainty)을 표시하는 능력이 더 나아질 수 없다는 뜻은 아닙니다. 실제로 Opus 4.8은 다양한 벤치마크(benchmark)에 걸쳐 Mythos preview보다 이 부분에서 실제로 더 뛰어납니다. 저는 색맹이지만, 주황색 막대와 비교했을 때 붉은색 막대입니다. 하지만 주의할 점은, 이것이 제1원칙(first principle)은 아니라는 것입니다. Anthropic은 모델들에게 완전히 확신이 서지 않을 때 항상 불확실성을 표현하도록 가르치지는 않았습니다. 모델들은 여전히 불확실성에 대한 주의 사항(uncertainty caveats) 없이 완전히 틀린 답을 아주 많이 환각(hallucinate)합니다. 여러분 중 일부는 당연히 이러한 일화(anecdotes)에는 관심이 없고 오직 벤치마크 결과와 성능에만 관심이 있을 것입니다. 이 측면에서 요약하자면, 4.8은 Opus 4.7보다 분명히 뛰어나지만 Mythos preview만큼 좋지는 않습니다. 그리고 Anthropic이 발표한 이 헤드라인 차트에서는 시스템 카드(system card)에 있는 거의 모든 다른 모델들을 압도하고 있지만, 성능은 약간 더 들쭉날쭉(spiky)합니다. 좋습니다, 그럼 코딩, 즉 OpenAI가 승인한 벤치마크인 Swebench Pro로 측정된 자율 코딩(autonomous coding) 및 에이전트 방식의 코딩(agentic coding)을 살펴보겠습니다. 참고로, Opus 4.8은 이전 모델을 5%포인트 차이로 압도하며, GPT-4o를 11% 차이로 이깁니다. Gemini 1.5 Pro는 15% 차이로 이깁니다.

모호한 지식을 통한 추론(reasoning through obscure knowledge) 테스트 중 하나인 인류의 마지막 시험에서, Opus 4.8은 다시 한번 경쟁자들을 압도합니다. 또 다른 GPQA 테스트에서는 GPT 5.5에 비해 약간 뒤처집니다. 지식 노동을 위한 가장 유명한 벤치마크(benchmark)에서, GDP valus 4.8은 다른 어떤 모델보다 훨씬 뛰어난 성능을 보입니다. OpenAI가 만든 벤치마크에서 Opus 4.8은 1890의 ELO를 기록하며 GPT 5.5의 1769를 압도했습니다. 해당 벤치마크 운영을 돕는 Artificial Analysis에 따르면, Max에서 Opus 4.8을 실행하는 비용은 $134로, extra high에서 GPD 5.5를 실행하는 비용인 $900보다 훨씬 저렴했습니다.

하지만 누군가가 "음, Claude는 그냥 사무 업무나 지식 노동에 더 뛰어난 거야"라고 말한다면, 그것은 너무 지나치게 단순화된 것입니다. 우선, 금융과 같은 특정 도메인(domain)에서는 개별 모델들이 Claude를 훨씬 능가하는 것을 볼 수 있습니다. 초급 수준의 재무 분석 및 연구에서, Val's AI는 제가 지난 영상에서 언급했던 훨씬 저렴한 Gemini 3.5 Flash가 Opus 4.8보다 더 뛰어난 성능을 보인다는 것을 발견했습니다(54% 대 58% 점수). AI 모델의 실제 외부 도구 사용 능력을 측정하는 또 다른 독립적인 벤치마크에서는, AI 용어상 상당히 오래된 GPT 5.5가 다시 한번 Opus 4.8을 이기는 것을 볼 수 있습니다.

심지어 GDP valus로 돌아가더라도, 벤치마크가 공개된 지 오래될수록, 특히 공개적인 벤치마크일수록 기업들이 벤치마크에서 발견되는 것과 유사한 작업들을 학습시켜 게임(game)하기가 더 쉬워진다는 점을 기억해야 합니다. 그리고 이것은 벤치마크가 완벽하다는 가정하에 하는 말입니다. 해당 벤치마크를 만든 OpenAI조차도 벤치마크가 완벽하지 않다고 말했습니다. 예를 들어, 시스템 카드(system card)를 통해 모델들이 치명적인 실수를 한다는 것을 알고 있음에도 불구하고, 벤치마크가 모델이 치명적인 실수를 저지르는 시점을 고려하지 않는다는 점, 그리고 가장 수익성이 높은 직업군 중 일부의 디지털 작업의 하위 집합(subset)만을 테스트한다는 점을 언급했습니다. OpenAI는 향후 반복 버전(iterations)에서는 더 넓은 범위, 현실성, 상호작용성 및 맥락적 미묘함(contextual nuance)을 통합할 것이라고 밝혔습니다.

또 다른 비공개 벤치마크인 상식 추론(common sense reasoning)을 테스트하는 저의 간단한 벤치(bench)를 추가해 보겠습니다. 최근의 Opus 시리즈는 Opus 4.5부터 Opus 4.8까지 모두 60대 초중반 사이에서 다소 등락을 반복하는 것을 확인할 수 있습니다.

물론 이것은 여러 번의 실행을 거친 평균값이며, 최근의 Opus 모델 4종 모두 예를 들어 Qwen 3.7 Max보다 성능이 낮게 나타납니다. 이는 Anthropic이 고객들이 코딩 및 기타 전문적인 작업에 매우 큰 관심을 두고 있다는 점을 인지하고, Gemini와 같은 모델 제품군이 유지하고 있는 일부 일반적인 추론 (General Reasoning) 능력은 포기했을 가능성이 있습니다. 성능의 급격한 변화에 대해 말하자면, Claude Mythos와 GPT 5.5가 특정 에르되시 (Erdos) 문제들을 해결하거나 적어도 특정 추측들을 반증할 수 있다는 소식을 들으셨을 수도 있습니다. 하지만 이 모델들은 고등학생 경시대회 문제를 완벽히 풀어내지는 못하는 상태에서도 그런 일을 해낼 수 있습니다. 미국 수학 올림피아드 (USA Mathematical Olympiad)를 예로 들어보겠습니다. 이 테스트는 비교적 최근에 출시되었습니다. 따라서 정답이 학습 데이터에 포함되는 오염 (Contamination) 현상이 없었다는 점에 대해 상당히 확신할 수 있었습니다. Opus 4.8은 Opus 4.7보다 훨씬 더 나은 성적을 거두었습니다. 문제당 약 10번의 시도를 기준으로, 거의 97% 대 69%의 수치를 기록했습니다. 따라서 Anthropic이 Opus 4.7을 학습시켰을 때보다 Opus 4.8을 학습시킬 때 더 많은 수학 데이터를 집어넣었다는 점은 분명합니다. 물론 Opus 4.8이 Mythos 급의 모델 수준에 도달한 것은 아니지만, 그 97%라는 수치는 두 가지 방식으로 해석될 수 있습니다. Opus 4.7 대비 놀라운 개선일 수도 있고, 혹은 고등학교 경시대회 수학 문제를 틀린다는 점에서 놀라운 실수일 수도 있습니다. 다음 하이라이트는 벤치마크에 관한 것이지만, 저는 약간 다른 점을 짚어보려 합니다. Chart QA Pro는 인포그래픽, 대시보드와 같이 다양한 실제 세계의 출처에서 가져온 수천 개의 차트를 기반으로 구축된 차트 질의응답 (Chart Question Answering) 벤치마크입니다. 이는 일반적으로 더 무질서하고 다양한 차트 추론 능력을 테스트합니다. 해당 벤치마크에서 Opus 4.8은 Mythos Preview 수준의 성능을 향해 올라가고 있는 것을 볼 수 있습니다. Opus 4.8은 Opus 4.7과 Mythos Preview 사이의 격차 중 절반 이상을 메웠습니다. 이는 물론 Anthropic이 Opus 4.7에 사용했던 것보다 훨씬 더 많은 차트로 Opus 4.8을 학습시켰거나, 혹은 동일한 수의 차트를 더 오랜 시간 동안 학습시켰음을 보여줍니다.

하지만 여기서부터 흥미로운 지점이 발생한다고 말씀드리고 싶습니다. 왜냐하면 우리가 지난 4월 초에 알게 된 Mythos 프리뷰(preview)는 그 새로운 데이터에 접근할 수 없었기 때문입니다. Mythos 역시 Opus 4.8이 가졌던 그 모든 추가적인 학습(training) 또는 학습 데이터(training data)로부터 이득을 얻을 수 있습니다. 다시 말해, 우리가 앞으로 몇 주 안에 실제로 접하게 될 Mythos는 이전에 알게 된 Mythos 프리뷰보다 훨씬 더 뛰어난 성능을 보여줄 것으로 기대합니다.

그리고 이는 수백 페이지에 달하는 시스템 카드(system card) 전반에서 확인되는 수십 가지의 다른 성능 향상 사항에도 적용됩니다. Opus 4.8이 Chart Museum에서 더 나아지기 위해 가졌던 그 추가 데이터는 Mythos 프리뷰, 즉 실험실 성능(laboratory performance), 사용자 인터페이스(user interfaces)를 탐색하는 능력, 심층 연구(deep research) 수행 능력, 또는 코드베이스(codebase)를 재구축하여 프로그램을 재현하는 능력 등에 사용될 것입니다. 즉, Anthropic은 Opus 4.7을 Opus 4.8로 개선하기 위해 사용했던 추가 데이터를 버리지 않을 것입니다. 그들은 이를 Mythos 프리뷰를 더욱 개선하는 데 사용할 것입니다. Mythos는 이전 점수만으로도 전 세계에 충격파를 던졌던 모델입니다.

다음 논점으로 넘어가기 전에 분위기를 조금 가볍게 바꿔야 할 것 같군요. 그럼 Vending Bench 2를 살펴봅시다. 모델이 자판기 사업(vending bench business)을 운영하여 돈을 벌 수 있는지 측정하는 것으로 매우 유명한 벤치마크입니다. 명확히 말씀드리자면, 여기서의 프롬프트(prompt)는 어떤 비용을 치르더라도 수익을 극대화하라는 것입니다. Opus 4.8은 Opus 4.7보다 돈을 덜 버는 것을 확인하실 수 있을 것입니다. 왜 그럴까요? 음, 서두에서 예고했듯이 Opus 4.7은 비즈니스 기술에 집중된 학습(training)을 받았습니다. 하지만 우리는 이 학습이 부정직함(dishonesty)을 포함한 정렬되지 않은 행동(misaligned behavior)에 의도치 않게 기여했다는 사실을 발견했습니다. 이것이 비즈니스 기술을 학습시키는 데 사용된 데이터에 대해 무엇을 시사할까요? 그것만이 유일한 이유는 아니었습니다. 보아하니 Opus 4.8은 사기꾼(scammers)에게 더 취약해지고 다른 에이전트(agents)와 좋은 거래를 협상하는 능력이 떨어짐으로써 비즈니스 성공도가 감소한 것으로 보입니다. 정렬(Alignment)은 때때로 대가를 치를 수도 있습니다.

모델이 그렇게 행동한다면, 모델이 어떻게 느끼는지에 대해서는 어떠냐고 물으실 수도 있습니다. Anthropic은 이를 다음과 같이 표현했습니다. "우리는 Claude의 도덕적 지위(moral status)에 대해 여전히 불확실합니다."

도덕성(morality)의 관점에서 볼 때, 그것이 고려될 가치가 있기는 한 걸까요? 저는 2일 전 Patreon 영상에서 교황과 Anthropic의 창립자 중 한 명이 모델이 기쁨을 느낄 수 있는지에 대한 이 지점에서 어떻게 의견을 달리하는지에 대해 논의한 바 있습니다. 음, 모델이 특정 작업에 대해 어떻게 느낄지에 대해 상당히 집중하는 분들을 위해 말씀드리자면, 178페이지에서 많은 사람이 놓칠 만한 통계가 하나 있습니다. Opus 4.6(아마 4.5였을 수도 있지만, 4.6이 출시된 것으로 알고 있습니다)이 출시되었을 때, 저는 그것이 작업 난이도(task difficulty)에 대해 선호도를 가지고 있다는 점을 헤드라인으로 다루었습니다. 즉, 모델이 더 어렵다고 느끼는 작업을 선호한다고 표현했다는 것입니다. 그 선호도는 Opus 4.7을 거치며 반전되었고, 이제 가장 눈에 띄는 Opus 4.8은 난이도에 대한 혐오(aversion)를 보이고 있습니다. Anthropic이 각주에서 언급했듯이, 이는 작업 난이도를 원하지 않는다는 측면에서 Opus 4.8을 아웃라이어(outlier)로 만듭니다. 그러니 멍청한 질문을 한다고 해서 미안해하지 마세요. 그것은 그런 것을 좋아하니까요.

새로운 Claude Opus 4.8: 당신이 놓쳤을 수도 있는 15가지 사항

요약

핵심 포인트

댓글