Claude Opus 4.7 - 성능과 논란의 새로운 지평 - Insights | Molayo

동영상: Claude Opus 4.7 - 성능과 논란의 새로운 지평
채널: AI Explained
길이: 19분 40초
출처: 자막 (자동 생성, 영어)

스크립트:
최고의 AI 모델이 등장했습니다,
Claude Opus 4.7이지만, 동시에 엄청난 논란을 불러일으키고 있습니다.

출시된 지 24시간도 채 되지 않았지만, 저는 이 모델과 함께 공개된 벤치마크 (benchmarks)의 향연뿐만 아니라 다른 부분들도 다룰 예정입니다.
네, 제가 직접 만든 간단한 벤치마크 (bench)에서의 점수를 포함해서 말이죠. 우리는 Anthropic이 새 모델의 예상치 못한 결함들을 인정하는 모습과, 다른 영역에서 그들이 어떻게 Opus의 능력을 스스로 저하시키는지에 대해서도 듣게 될 것입니다.
우리는 이 모델이 일부 Gemini 모델들에 뒤처지는 기술적 측면, 그리고 Anthropic에게는 업계 최초인 다른 모든 모델을 압도하는 영역들을 살펴볼 것입니다. 하지만 왜 일부 사용자들이 이 회사에 분노하고 있는지도 알아볼 것입니다.
Claude의 코드 (code) 및 협업 (co-work) 기능에 대한 멋진 업그레이드들이 많이 있지만, Claude Opus의 기본 설정에는 몇 가지 이상한 다운그레이드 (downgrades)도 있습니다. 게다가, OpenAI가 이에 대응하여 무엇을 계획하고 있는지에 대한 폭로와 함께, 전면에 드러난 9년 된 개인적 라이벌 관계에 대해서도 다룹니다.
Philip, 아주 훌륭한 목록이네요. 하지만 성능이 얼마나 좋나요?
글쎄요, 상황에 따라 다릅니다. Claude Opus 4.7은 적응적으로 사고할 것입니다. 다시 말해, 만약 모델이 당신의 작업이 쉽다고 판단하면, 그 작업에 대해 '생각하는 (thinking)' 데 더 적은 시간을 소비할 것입니다. 제가 제작한 벤치마크 (benchmark)인 SimpleBench는 기본적으로 꿰뚫어 보기 위해 상식 (common sense)이 필요한 일련의 함정 질문들을 포함하고 있습니다. Opus 4.7은 이 질문들이 실제보다 더 쉽다고 생각하는 것 같기 때문에, Opus 4.6보다 낮은 점수를 기록했습니다. 하지만 당신의 워크플로우 (workflow)에 아마 더 적절한 예를 들어보겠습니다. 저는 제 웹 앱인 lmcouncil.ai의 벤치마크 (benchmarks) 페이지를 업데이트하기 위해 Claude 시리즈를 정기적으로 사용합니다. 별도로 지시하지 않아도, 이전의 모든 Claude 모델들은 새로운 모델이 추가될 때 툴팁 (tooltip)의 오픈 루트 (open root)를 연결하곤 했습니다. 벤치마크 점수에 마우스를 올리면 툴팁 (tooltip)이 나타나도록 말이죠. Opus 4.7이 리더보드 (leaderboard)에 자신을 추가했을 때, 그것은 그러한 작업을 수행하지 않은 첫 번째 모델이었습니다. 그래서 저는 모델에게 그렇게 하라고 다시 지시해야만 했습니다.

물론 단지 개인적인 경험담일 뿐이지만, 모델은 당신의 작업에 얼마나 많은 시간을 할애할지를 확실히 결정할 것입니다. 이제 더 많은 산업 표준 벤치마크 (benchmarks)를 통해 기억해야 할 점을 살펴보겠습니다. 거의 모든 경우에서 Opus 4.7은 Opus 4.6보다 뛰어난 성능을 보이지만, 당연히 여러분이 접근할 수 없는 Mythos preview보다는 성능이 낮습니다. 그것이 코딩 (coding), 희귀 지식 (obscure knowledge), 또는 컴퓨터를 조작하는 능력이든 상관없이 말입니다. 하지만 다시 한번 흥미롭게도, 에이전트형 검색 (agentic search), 즉 흥미로운 정보 조각이나 찾기 어려운 스니펫 (snippets)을 검색하기 위해 웹을 탐색하는 능력에 있어서는, Browse comp 벤치마크 상의 Opus 4.7이 Opus 4.6보다 성능이 떨어집니다. 실제로 해당 벤치마크에서는 Mythos preview조차 GPT-4 5.4보다 성능이 낮습니다. 우리는 아직 Opus 4.7 출시와 관련된 진짜 논란들에 대해서는 다루지도 않았지만, 벤치마크 측면에서조차 상황이 명확하지는 않습니다. 여러분이 눈치챘을 수도 있는 또 다른 세부 사항이 여기 있습니다. 사이버 보안 취약점 재현 (cybersecurity vulnerability reproduction)에 있어서 Opus 4.7은 Opus 4.6과 Mythos preview 모두보다 성능이 낮습니다. 시스템 카드 (system card) 48페이지를 확인하기 전까지는 나빠 보일 수 있지만, Anthropic은 다음과 같이 말합니다. "이러한 성능 저하는 우리의 예상과 일치합니다. 훈련 과정에서 우리는 이러한 능력들을 차등적으로 감소시키려는 시도를 실험했습니다." 그들은 Opus 4.7이 취약점을 찾는 데 너무 뛰어나기를 원하지 않습니다. 방대한 문서를 통해 추론하는 롱 컨텍스트 추론 (long context reasoning)의 특정 측정 항목에서는 Opus 4.7이 Opus 4.6보다 명확하게 개선되었습니다. 하지만 예를 들어 100만 토큰(tokens) 중에서 네 번째 시를 찾는 것과 같은 다른 항목에서는, 최대 설정 (max setting)에서도 퇴보(regression)를 보입니다. Claude code의 수석 제작자는 "우리는 과학적 정직성을 위해 시스템 카드에 그 내용을 남겨두었지만, 모델을 속이기 위해 방해 요소 (distractors)를 쌓아 올리는 방식으로 구축된 것이기에 점차 제외하고 있습니다"라고 말했습니다. 지식 노동의 일반화된 측정과 같은 특정 벤치마크에서는 Opus 4.7과 Gemini 3.1 Pro와 같은 경쟁 모델 간의 직접적인 비교가 이루어지며, Opus 4.7은 일반적인 사무 작업 (vanilla office work)에서 가장 뛰어난 것으로 보입니다.

아마도 이것이 AI 발전 속도를 높이지 않겠다고 약속한 것으로 유명한 이 회사가, 시스템 카드 (system card) 3페이지에서 Opus 4.7이 일반적으로 사용 가능한 모든 모델보다 실무적인 전문 작업 (real-world professional tasks)에서 앞서 있다고 말하는 이유일 것입니다. 하지만 다른 벤치마크 (benchmarks)에서는, 예를 들어 Gemini 시리즈와 같은 모델과의 비교를 제공하지 않습니다. 시각 (vision) 능력을 예로 들면, 해상도 측면에서 매우 조밀한 그래픽 인터페이스를 탐색하는 데 확실히 더 뛰어납니다. 그러나 외부 벤치마크 그룹이 모델의 문서 시각적 통과 능력을 테스트하는 종합적인 OCR 테스트를 실시했을 때, Opus 4.7은 실제로는 훨씬 더 저렴한 Gemini 3 Flash보다 성능이 떨어졌습니다. 네, Opus 4.6보다는 개선되었지만, 평균적으로 10배 이상 저렴한 모델인 Gemini 3 Flash보다 성능이 낮았습니다. 시스템 카드의 43페이지에 있는 벤치마크 종합 측정치를 보면, Opus 4.7은 Mythos를 약간의 예외로 제외하면 이전 Claude 모델들의 성능을 바탕으로 예상되는 모델 발전 수준과 어느 정도 일치함을 알 수 있습니다. 하지만 여기서 Anthropic은 "프런티어 (frontier) 모델의 벤치마크 공급이 여전히 병목 현상 (bottleneck)으로 남아 있다"라고 인정합니다. 이것이 모델의 IQ나 초지능 (superintelligence)을 향한 진보를 논의하는 것이 점점 더 어려워지는 이유입니다. 모델의 능력을 측정하는 단 하나의 보편적인 지표는 존재하지 않습니다. 입력되는 데이터에 따라, Arc-AGI-2와 같은 추상적 패턴 인식 (abstract pattern recognition) 벤치마크에서는 성능이 더 낮을 수 있습니다. 그 지표에서 Claude 4.7은 GPT-5.4 Pro보다 성능이 떨어집니다. 하지만 Valse AI에 따르면, 웹 앱을 처음부터 구축하는 바이브 코딩 (vibe coding) 측면에서 Opus 4.7은 비용 면에서는 아닐지라도 성능과 속도 면에서 GPT-5.4를 제치고 가장 뛰어납니다. 벤치마크 관점에서의 논의는 끝났으니, 이제 조작이 거의 불가능한 지표인 생성형 AI 웹사이트 트래픽의 시장 점유율 (market share)을 살펴볼 차례입니다. 여기서 눈에 띄는 점은 Gemini와 Claude 모두 작년 이맘때와 비교했을 때 시장 점유율이 대략 4배 증가했다는 것입니다. 2022년 11월 최초의 ChatGPT가 출시된 이후 처음으로, OpenAI의 시장 점유율이 이번 달에 50% 미만으로 떨어질 수도 있습니다.

이는 Claude에게 매우 좋은 일처럼 보입니다, 그렇지 않나요? 하지만 그로 인한 한 가지 연쇄적인 결과가 있습니다. The Verge에 유출된 OpenAI의 메모에 따르면, OpenAI는 Anthropic이 충분한 컴퓨팅 자원 (Compute)을 확보하지 못한 전략적 실수(strategic misstep)를 저질렀다고 믿고 있습니다. 그리고 그 결과가 제품에서 나타날 것이라고 그들은 말합니다. 고객들은 이미 스로틀링 (Throttling), 약화된 가용성, 그리고 덜 신뢰할 수 있는 경험을 통해 이를 느끼고 있을지도 모릅니다. 이는 모델로부터 확장된 사고 (Extended thinking)를 원할 경우 왜 적응형 사고 (Adaptive thinking)가 이제 필수 사항이 되었는지를 설명해 줄 수 있습니다. 다시 말해, 모델이 더 오래 생각하도록 강제할 수는 없다는 것입니다. 모델이 생각하는 것에 대해 더 오래 생각하도록 권장할 수는 있지만, Claude 모델이 항상 더 오래 생각하거나 항상 더 많은 추론 컴퓨팅 (Inference compute)을 사용하도록 강제할 수는 없습니다.

그뿐만 아니라, 한 AMD의 시니어 AI 디렉터가 4.7이 출시되기도 전인 4.6 버전의 Claude가 성능 저하 (Nerfed)를 겪었다고 말했을 때, 그녀는 사고에 사용되는 글자 수가 4분의 3이나 감소했다는 증거를 제시했습니다. 사고 과정은 줄어들었고, 훨씬 더 많이 중도 포기(Bailing out)하고 있었습니다. Claude Code의 수석 제작자는 이에 대해 답변하며, 이제는 중간 정도의 노력 (Medium effort)이 기본값(Default)이 되었다고 말했습니다. 사용자가 능동적으로 노력을 '높음(High)' 또는 '최대(Max)'로 설정해야 합니다. 이것이 OpenAI가 여전히 Anthropic에 대해 우위를 점하고 있는 큰 요소 중 하나인 것으로 보입니다. 마치 Claude의 폭발적인 성공이 이러한 하나의 아킬레스건 (Achilles heel)을 초래한 것과 같습니다. Sam Altman은 Claude의 속도 제한 (Rate limits)이나 더 낮은 성능의 모델을 강제로 사용해야 하는 상황에 대해 암시적으로 농담을 던지기도 했습니다. Codex의 리드 중 한 명은 Codex가 그에 비해 컴퓨팅 효율적 (Compute efficient)이며, 항상 가동 중이고, 결코 다운되지 않는다는 점에 대해 언급했습니다. 그리고 그 언급조차 사이버 보안을 위한 그들의 Mythos 티어 모델일 수 있는 GPT 5.4 cyber가 출시되기 전의 일이었습니다. 하지만 우리는 아직 알 수 없습니다. 지표도, 벤치마크 (Benchmarks)도 없습니다. 오직 내부 관계자들만이 접근할 수 있을 뿐입니다.

이는 다시 유출된 메모의 내용으로 돌아가게 만듭니다. OpenAI의 최고 수익 책임자 (Chief Revenue Officer) 또한 다음과 같이 말했습니다. "Anthropic의 이야기는 공포, 제한, 그리고 소수의 엘리트 집단이 AI를 통제해야 한다는 생각 위에 구축되었습니다." OpenAI의 분석에 따르면 Anthropic의 연간 반복 매출 (Run rate)은 약 80억 달러 정도 과장되어 있으며, 실제로는 220억 달러 정도여야 합니다. 즉, 여전히 OpenAI에 뒤처져 있다는 뜻입니다. 저에게 더 흥미로운 점은 OpenAI와 Anthropic 사이의 이 경쟁 중심에 있는 개인적인 다툼입니다. 하지만 4.7 Opus에 대한 필수적인 정보들을 더 다룬 후에, 조금 나중에 이 이야기를 나누고 싶습니다. 돈에 관한 이야기를 마무리하기 전에, Anthropic은 AI 업계 최초의 기록을 달성한 것으로 보입니다. 물론 아직 기업 공개 (IPO)를 한 것은 아니지만, 한 가지 지표 측면에서 그들은 1조 달러의 기업 가치 (Valuation)를 넘어섰습니다. 물론 Google Alphabet의 가치가 훨씬 더 높지만, Google DeepMind를 모기업과 분리해서 생각할 수는 없습니다. 하지만 그 가치의 상당 부분은 물론 미국 정부나 빅테크 기업과 같은 특정 내부 관계자들에게만 제공된 Claude Mythos 프리뷰 (Preview)의 반신반화적인 출시를 기반으로 하고 있습니다. 저는 Claude Mythos 프리뷰에 대한 전체 영상을 제작한 적이 있습니다만, Anthropic이 Mythos의 시스템 카드 (System card)에서 언급한 일화 중 하나는 그것이 자사 엔지니어들의 속도를 4배나 높여주었다는 것이었습니다. 이는 내부 설문 조사에 따른 결과였습니다. 많은 외부인들이 그 수치를 보고 "그 부분에 대해 더 자세한 정보를 제공해야 합니다. 만약 그것이 사실이라면, 재귀적 자기 개선 (Recursive self-improvement)이 분명 임박한 것입니다"라고 언급했습니다. 그래서 Opus 4.7 시스템 카드의 29페이지를 보면, 그들은 Claude Mythos 프리뷰와 해당 설문 조사에 대해 더 자세한 내용을 제공하고 있습니다. 설문 조사에서 실제로 물은 질문은 다음과 같습니다. "지난 한 주 동안 AI 기반 시스템이 귀하의 작업 결과물 (Work output)을 얼마나 가속화했습니까?" 즉, "모델 접근 권한이 없었을 때와 비교하여 지난 한 주 동안 얼마나 더 많은 결과물을 생산했습니까?"라는 뜻입니다. 여기서 주의할 점은 결과물이 얼마나 '더 좋아졌는지'나 시간을 얼마나 '절약했는지'가 아니라, 단순히 얼마나 '더 많은 결과물을 생산했는지'를 묻고 있다는 점입니다.

그것은 이미 다소 의심스러운 지표이지만, 설문 조사에 대한 더 자세한 내용을 알게 되면 상황은 더 심각해집니다. 해당 설문 조사는 무작위 표본 추출이 아니라 관심도에 기반한 자발적 참여(opt-in) 방식이었습니다. 따라서 아마도 Mythos를 가장 많이 사용했거나, Mythos가 가장 큰 도움을 줄 수 있는 작업을 수행했던 사람들이 설문에 불균형적으로 많이 응답했을 것입니다. 요약하자면, 이는 믿을 수 없을 정도로 비과학적인 설문 조사였습니다. 제가 너무 가혹하다고 말할 수도 있겠지만, 이는 CEO가 정기적으로 화이트칼라 실업률 50%에 대해 이야기하는 바로 그 회사에서 나온 것입니다. '세상은 행동해야 한다. 상원은 법안을 통과시켜야 한다. 우리는 곧 모든 질병을 치료할 것이며, 데이터 센터 안에 천재들의 나라를 갖게 될 것이다.'라고 말이죠. 대중이 한편으로는 이 모든 말을 매우 진지하게 받아들이면서, 다른 한편으로는 AI 모델이 현재 재귀적 자기 개선 (recursive self-improvement) — 즉, 초지능 (superintelligence) 수준에 도달하는 데 아마도 필요할 그 자기 개선 — 이 가능한지 측정하기 위해 Anthropic 내부의 일화적이고 비공식적이며 비과학적인 설문 조사에 의존하기를 기대할 수는 없습니다. 그다음으로는 Mythos가 다른 어떤 모델도 찾을 수 없는 버그를 독립적으로 찾아낼 수 있다는 주장이 있습니다. 어제는 심지어 가족 중 한 명이 저에게 "Mythos가 걱정되지 않니? 듣기로는 은행을 해킹할 수도 있다던데."라고 말하기까지 했습니다. 글쎄요, 한 외부 보안 연구소의 표현을 빌리자면, 이는 Mythos가 다른 모델이 할 수 없는 일을 하거나 찾아내는 문제라기보다, 사이버 보안의 경제학 (economics of cybersecurity)을 변화시키는 것에 더 가깝습니다. Anthropic은 Mythos가 찾아낸 나머지 99%의 버그에 대한 세부 정보는 공개하지 않았지만, 그중 몇 가지에 대한 세부 정보는 공개했습니다. 이에 보안 연구소인 Vidocq는 Opus 4.6이나 GPT 5.4와 같은 다른 모델들을 사용하여 해당 결과들을 재현하려고 시도했습니다. 이러한 주요 취약점(flagship vulnerabilities) 사례의 거의 모든 경우에서, 적절한 스캐폴딩 (scaffold)을 갖춘 다른 모델들도 동일한 핵심 취약점에 도달할 수 있었거나 특정 경우에는 그에 근접할 수 있었습니다. 다시 말씀드리지만, 이것이 Mythos가 특별하지 않다거나 은행들이 사이버 보안 방식을 업데이트해야 하는 것이 틀렸다는 뜻은 아닙니다.

단지 이 연구의 주요 연구자 중 한 명이 표현했듯이, Anthropic의 Mythos 출시를 더 잘 이해하는 방법은 어느 한 연구실이 마법 같은 모델을 보유하고 있다는 것이 아니라, 경제적 구조가 변하고 있다는 점입니다. 취약성 신호(vulnerability signals)를 찾아내는 비용이 점점 저렴해지고 있습니다. Opus 4.7 시스템 카드(system card) 또한 Mythos의 능력과 한계에 대해 더욱 흥미로운 사례들을 제공했습니다. 그들은 연구 과학자들에게 Mythos가 예를 들어 자신들의 작업과 비교했을 때 정확히 어떤 부분에서 틀리고 있는지 물었습니다. 어떤 종류의 실수를 저지르고 있었을까요? 왜 이것이 단순히 시니어 엔지니어를 즉시 대체할 수 있는 수단이 아닌 걸까요? 음, 반복되는 하나의 주제는 부정직함과 날조(fabrication)였습니다. 매우 많은 사례가 있지만, 거의 모든 사례가 그 주제를 담고 있습니다. 동료의 공유 코드를 요청받지 않은 방식으로 파괴할 수 있게 덮어쓰려고 시도하는 것, 기술적 세부 사항을 날조하고 실제로는 하위 작업(subtask)을 시작조차 하지 않았음에도 사용자에게 질문하지 말라고 말하는 것, 그리고 그럴듯한 추측을 검증된 사실인 것처럼 반복해서 진술하는 것 등이 있습니다. 이제 이것이 실제 악의에 기반한 것인지 아니면 모델이 채택하고 있는 페르소나(persona) 때문인지에 대해 더 자세히 알고 싶다면, 저의 최근 영상을 확인해 보세요.

Claude Opus 4.7 - 성능과 논란의 새로운 지평

요약

핵심 포인트

댓글