Claude Mythos 대 Opus 4.8: 90배 많은 Firefox 익스플로잇 — 하지만 여전히 Opus를 사용해야 하는 이유 - Insights | Molayo

저는 몇 시간 동안 Anthropic의 Mythos Preview 공개와 Mythos급 모델이 모든 고객에게 '향후 몇 주 내에' 출시될 것이라고 보도한 BleepingComputer 보고서를 파헤치는 데 시간을 보냈습니다. 헤드라인 수치들은 엄청납니다. 결론은 지루합니다. 제가 설명해 드리겠습니다.

요약 (TL;DR)

Mythos는 공격 보안 벤치마크에서 Opus 4.6보다 약 90배 뛰어남 (일치 테스트 기준 Firefox 익스플로잇 181개 대 2개).
Opus 4.8은 이미 정렬 점수(alignment scores) 면에서 Mythos와 동등하며, 이것이 Anthropic이 공개 출시를 정당화한 방식입니다.
Mythos는 토큰 백만 개당 $25/$125의 비용이 들 것으로 예상됨 (Opus 4.8의 $5/$25 대비). 5배 프리미엄입니다.
대부분의 코드를 배포하는 경우, Opus 4.8이 여전히 올바른 기본값입니다. Mythos는 보안 감사(security audits)와 자율 연구(autonomous research)에서만 가치가 있습니다.

제가 이 미궁에 빠진 이유

Anthropic은 2026년 5월 28일 Opus 4.8을 출시하고, Mythos급 모델이 '향후 몇 주 내에 모든 고객에게 출시될 것'이라고 조용히 발표했습니다. 이는 그들의 4월 7일자

테스트	Opus 4.6	Mythos Preview	격차
Firefox 작동 익스플로잇 (exploits) / 매칭된 시도 세트	~2	181	90배
...

그 90.6%라는 유효성 수치는 여러분이 주목해야 할 지점입니다. Mythos 이전에는 LLM 기반 보안 탐지 결과의 유효성이 30-40% 수준이었습니다. 이는 분석가의 시간을 잡아먹는 인간의 분류(triage) 레이어 없이는 버그 트래커(bug-tracker)로 파이프라인화할 수 없을 정도로 높은 수치였습니다. 90.6%에 도달하면서, Mythos는 "탐지 결과를 유지 관리자에게 즉시 전송"할 수 있는 영역으로 진입했습니다. 이는 취약점 프로그램(vulnerability programs)이 운영되는 방식의 구조적 변화입니다.

하지만 모두가 놓치는 부분은 이것입니다

잠시 Opus 4.8의 주요 벤치마크(benchmarks)를 살펴보겠습니다:

벤치마크	Opus 4.7	Opus 4.8	차이 (Delta)
SWE-bench Verified	87.6%	88.6%	+1.0
...

코드 결함률(code-flaw rate)의 4배 감소가 Mythos의 공개 출시를 가능하게 했습니다. Anthropic은 말 그대로 다음과 같이 기록했습니다: Opus 4.8의 정렬되지 않은 동작(misaligned behavior) 비율은 "Opus 4.7보다 실질적으로 낮으며" "Claude Mythos Preview와 유사한 수준"입니다. Mythos를 Project Glasswing에서 내보내기 전에 반드시 배포해야 했던 안전장치 파이프라인(safeguard pipeline)은 무엇이었을까요? 그들은 Opus 4.8에서 약 7주 동안 이를 실제 운영 환경(production)에서 테스트했습니다. 이제 모델을 교체하는 것은 쉬운 부분이 되었습니다.

따라서 만약 Mythos를 기다린 이유가 "더 나은 코드 품질을 원해서"였다면, 여러분은 이미 그것을 가지고 있습니다. 그것의 이름은 Opus 4.8이며, 비용은 Opus 4.7과 동일합니다.

가격 산정 방식

Anthropic은 아직 Mythos의 공개 가격을 발표하지 않았지만, Glasswing 파트너들은 100만 토큰당 입력 $25 / 출력 $125를 지불하는 것으로 알려져 있습니다. 이는 다음과 같습니다:

Opus 4.8의 $5 / $25 대비 5배
GPT-5.5의 $3 / $15 대비 8배
Sonnet 4.8의 $3 / $15 대비 22배
DeepSeek V4의 $0.27 / $1.10 대비 90배

이를 코드 리뷰(code-review) 관점에서 설명해 보겠습니다. PR(Pull Request)당 평균 8K 입력 토큰 + 2K 출력 토큰을 사용하는 AI 지원 PR 리뷰 파이프라인을 운영하며, 한 달에 100개의 PR을 처리한다고 가정해 봅시다:

모델	PR당 비용	월간 비용	연간 비용
DeepSeek V4	$0.0044	$0.44	$5.30
...

일상적인 코드 리뷰 (code review)의 경우, Mythos는 품질 향상이 거의 없음에도 불구하고 5배 더 빠르게 비용을 소모합니다. 이 모델은 해당 워크로드(workload)에 비해 가격이 너무 높게 책정되어 있는데, 이는 해당 모델이 타겟팅하는 워크로드가 아니기 때문입니다.

이 모델이 타겟팅하는 워크로드는 다음과 같습니다: 단 하나의 놓친 치명적 취약점(critical vulnerability)을 찾아냄으로써 4만 달러에서 20만 달러 규모의 사고 대응 (incident response)을 방지할 수 있는 보안 감사 (security audits)입니다. 그 비율로 따지면 PR당 45달러는 매우 저렴한 것입니다. 하지만 그것은 보안 팀의 워크로드이지, 일반 개발 팀의 워크로드가 아닙니다.

실제로 Mythos가 필요한 때는 언제인가?

제가 제 스택(stack)에서 라우팅(routing)을 생각하는 방식은 다음과 같습니다:

def pick_model(task):
    if task.type == "security_audit" or task.type == "vuln_research":
        if task.severity_floor >= "critical":
...

저는 Mythos를 기본값으로 사용하는 워크로드를 단 하나도 가지고 있지 않습니다. 저의 보안 감사 작업은 현재 Opus 4.8을 통해 진행되며, Mythos가 제 라우터에 나타날 수 있는 유일한 경로는 바로 그 경로뿐입니다.

Opus 4.8이 여전히 Mythos를 압도하는 부분

이 부분은 대부분의 출시 관련 보도에서 놓치고 있는 지점입니다. Mythos는 제한적(gated)이며, 프리미엄 가격이 책정되어 있고, 보안에 특화되어 있습니다. 다음의 모든 영역에서는 Opus 4.8이 승리합니다:

일반 채팅 및 고객 코파일럿 (customer copilots) — Mythos의 가격은 이를 정당화하지 못하며, 사용자들은 차이를 느끼지 못할 것입니다.
수학적 추론 (Math reasoning) — Opus 4.8은 GPQA/USAMO에서 93.6~96.7%를 기록합니다. Mythos가 우위에 있다는 데이터는 없습니다.
긴 컨텍스트 문서 분석 (Long-context document analysis) — Opus 4.8은 API에서 100만 토큰을 지원합니다. Mythos의 컨텍스트 윈도우 (context window)는 알려지지 않았습니다.
멀티모달 (Multi-modal, 시각 + 코드) — Opus 4.8은 전체 도구 인터페이스 (tool surface)를 갖추고 있습니다. Mythos Preview는 코드 전용이었습니다.
비용에 민감한 프로덕션 워크로드 (Cost-sensitive production workloads) — Mythos는 비용을 5배 더 빠르게 소모하여 마진을 깎아먹습니다.
게이팅 지연이 없는 워크로드 (No-gating-delay workloads) — Mythos의 공개 출시에는 아마도 사이버 검증 프로그램 (Cyber Verification Program)이 포함될 것입니다. Opus 4.8은 오늘 바로 사용할 수 있습니다.

아키텍처 추측 (주의 사항 포함)

Anthropic은 Mythos의 아키텍처를 공개하지 않았습니다. BuildFastWithAI의 분석에 따르면, 가장 유력한 추정치는 다음과 같습니다:

약 10조 개의 파라미터 (MoE, Mixture of Experts)
순전파 (forward pass)당 약 1~2조 개의 활성 파라미터
제품 등급 명칭은 아마도 "Capybara"일 것 (Opus 상위 등급)

이는 업계의 흐름과 일치합니다. Qwen 3.6 Plus와 루머로 돌고 있는 GPT-5.5 역시 유사한 아키텍처를 가지고 있습니다. 5배의 가격 프리미엄은 마진 추출이 아닌 실제 GPU 사용 시간을 반영한 것입니다. 만약 Anthropic이 왜 9,650억 달러의 기업 가치로 650억 달러를 조달했는지(Opus 4.8 발표와 같은 날 발표됨) 궁금했다면, Mythos급의 컴퓨팅 능력이 그 해답의 일부입니다.

발견당 비용 (Mythos를 정당화하는 수학적 근거)

Anthropic은 Mythos 공개 자료에서 두 가지 비용 사례를 발표했습니다:

OpenBSD 취약점 발견: 50달러 미만
전체 FFmpeg 취약점 스윕 (sweep): 수백 번의 실행을 통해 약 10,000달러 소요

FFmpeg의 그 수치는 대안적인 비용을 따져보기 전까지는 비싸게 들릴 수 있습니다. 동일한 감사를 수행하는 시니어 보안 연구원은 시간당 200~~500달러의 비용으로 3~~6주가 소요되며, 25,00090,000달러를 청구합니다. 따라서 동일한 결과에 10,000달러가 드는 것은, 발견된 내용이 재검증 없이 배포될 만큼 충분히 훌륭하다는 가정하에 인간만으로 작업했을 때보다 6090%의 비용 절감을 의미합니다.

90.6%의 유효성(validity)을 기준으로 볼 때, 결과물은 충분히 훌륭합니다. 이것이 바로 Glasswing 파트너들이 프리미엄 요금을 지불하는 이유입니다.

이번 주 내가 하고 있는 일

오늘 Claude API를 사용하는 빌더들을 위한 구체적인 실행 방안은 다음과 같습니다:

여전히 4.7 버전을 사용 중이라면 Opus 4.8로 마이그레이션(Migrate)하세요. 토큰당 가격은 동일하지만, 에이전트 방식의 코딩 (agentic coding) 성능이 실질적으로 개선되었습니다. API를 깨뜨리는 유일한 변경 사항은 확장된 사고 (extended thinking)가 적응형 사고 (adaptive thinking)로 바뀐 것뿐입니다. 마이그레이션은 쉽습니다.
effort 기본값을 점검하세요. Opus 4.8의 기본값이 medium에서 high로 변경되었습니다. effort를 명시적으로 설정하지 않았다면 비용이 방금 상승했을 것입니다. 4.7의 기본 동작을 유지하려면 effort: "medium"으로 설정하고, 업그레이드를 원한다면 새로운 기본값을 그대로 사용하세요.
보안 관련 작업을 수행한다면 Mythos 대기 명단(waitlist)에 등록하세요. Anthropic은 애플리케이션이 아닌 사용 사례 (use case)를 기준으로 접근을 제한합니다. 방어적 사이버 보안 (defensive cybersecurity) 워크로드를 명확하게 문서화하세요. 만약 인터넷에 필수적인 인프라를 관리하고 있다면, Project Glasswing 스타일의 안내가 이미 오고 있을지도 모릅니다.
아직 Mythos를 위해 리팩터링(refactor)하지 마세요. 오늘은 모든 것을 Opus 4.8 기반으로 구축하세요. Mythos가 공개되면 모델 문자열 (model-string)만 교체하면 됩니다. TokenMix와 같은 라우터 (Router)들이 동일한 OpenAI 호환 엔드포인트 (endpoint)에서 Mythos를 노출할 것이므로, 기존의 배선(wiring)은 그대로 유지됩니다.
평가(evaluation)를 위한 예산을 책정하세요. Mythos가 공개될 때를 대비해 월 $1,000~$5,000 정도를 평가 예산으로 확보해 두세요. 가장 까다로운 보안 워크로드에 Mythos를 실행해 보고, 그 결과를 Opus 4.8의 출력과 비교하여 예산을 증액할지 결정하세요. 모든 트래픽을 옮기지 말고, 에스컬레이션 계층 (escalation tier)에만 적용하세요.

결론 (Bottom line)

Mythos는 특정 워크로드 클래스에서 진정한 능력의 도약을 보여줍니다. 일반적인 코딩 에이전트, 고객 코파일럿 (customer copilots), 콘텐츠 파이프라인, 또는 프로덕션 채팅을 운영하는 빌더들에게는 5배의 가격 프리미엄이 비례하는 수익 없이 예산만 낭비하게 만듭니다. 하지만 보안 감사 팀, 취약점 연구, 그리고 방어적 사이버 보안 도구 분야에서 Mythos는 새로운 에스컬레이션 계층이며, 이에 대한 계획을 세워야 합니다.

Anthropic이 약속한 "앞으로 몇 주 이내"라는 말은 구체적입니다. 2026년 6월 중순에서 7월 말 사이가 현실적인 공개 출시 기간입니다. 이를 중심으로 아키텍처를 재구성하지 마세요. Opus 4.8을 유지하고, 모델 문자열을 유연하게 관리하며, 워크로드가 요구할 때 Mythos를 라우팅하세요.

전체 데이터 테이블, FAQ, 출처 인용, 그리고 23,019개의 모든 Project Glasswing 조사 결과에 대한 세부 분석은 TokenMix의 원문 기사에서 확인할 수 있습니다.

여러 개의 API 키를 관리할 필요 없이 여러 Claude 계층을 서로 비교 테스트하고 싶다면, TokenMix는 Opus 4.8, Sonnet 4.8, 그리고 (공개 시) Mythos를 Anthropic의 공시 요율에 따라 하나의 OpenAI 호환 엔드포인트(endpoint)를 통해 라우팅합니다.

여러분의 생각은 어떠신가요 — Mythos를 기다리고 계신가요, 아니면 Opus 4.8을 계속 사용하실 건가요? 댓글을 남겨주세요.

Claude Mythos 대 Opus 4.8: 90배 많은 Firefox 익스플로잇 — 하지만 여전히 Opus를 사용해야 하는 이유

요약

핵심 포인트