아시아 AI 스타트업들, Anthropic Mythos 대체 모델 출시

Fugu 모델을 C#과 Unity에서 MCP, OpenCode로 실제 작업에 써봤는데, 테마 시스템 리뷰와 색상 변경 계획 한 번에 $20 플랜의 5시간 한도를 다 써버림
구현 결과를 보려고 $100 플랜으로 올렸지만 Opus보다 나쁘고 엄청 느렸으며, 새 5시간 한도도 소진하고 주간 한도의 35%를 썼는데도 Opus가 훨씬 적은 시간과 비용으로 하던 수준에 거의 못 미쳤음
이 정보는 알아서 판단하면 되지만, 돈 낭비처럼 보임

Fugu는 독립 모델이 아니라 OpenAI, Anthropic 같은 여러 기존 SaaS 모델을 뒤에서 호출하고, 응답을 모아 결과를 만드는 구조임
여러 AI 모델 결과를 조합한 뒤 자체 독점 모델로 최종 결과를 만들면 단일 백엔드 모델보다 품질이 좋아진다고 주장하지만, 그 자체 모델이 실제로 존재하는지, 충분히 유능한지 의심이 듦
설령 주장이 맞더라도 Claude Code 같은 클라이언트 쪽에서 백그라운드 모델과 비슷한 성능의 모델로 최종 결과를 생성하게 하면 쉽게 구현 가능해 보이고, 서비스에서 수상한 냄새가 남

Unity 대신 Godot용으로 비슷한 서비스를 제공하는 입장에서, Opus 같은 상위 모델을 쓰면 $20 플랜이 프롬프트 하나에 소진되는 건 그럴듯함
API 가격을 그대로 내고 10배 보조금을 감당하지 못하면 그렇게 됨

Cursor에서 Fable을 테스트해봤고, 만든 데이터 웹사이트를 덜 “Claude스럽게” 보이게 할 아이디어를 물었더니 10분 만에 $40을 쓰면서 가장 쓸모없고 Claude스러운 CSS 스타일링을 뽑아냈음
그 웹사이트 자체는 Opus로 만든 것이니 결과가 Opus보다 나빴다고도 볼 수 있음
미국 모델로도 같은 경험을 했으니, 어쩌면 그 아시아 모델들도 Mythos류일지도 모르겠음

어떤 Unity MCP를 쓰는지 궁금함
공식 MCP를 써보고 있는데, 다른 사람들은 뭘 쓰는지 알고 싶음
유명한 coplay 쪽은 패키지 충돌을 겪었음

웹 검색/조사에서도 비슷했고, Opus와 비교하면 나빴음
절반은 놓쳤고 나머지 절반은 오래된 정보였거나 검증하지 않았음

“Mythos-like”라는 표현이 슬슬 짜증남
일반 사용자는 벤치마크를 보는 것 말고는 비교할 방법이 없음

“Mythos-like”는 그냥 소문으로 과대홍보됨이라는 뜻이고, 여기서는 맞게 쓰인 표현임

아시아 AI 스타트업들도 과감한 주장을 하면서 실제로 비교할 방법은 없고, Trump 개입의 핵심도 Faible을 증류하지 못하게 막는 것이었다고 볼 수 있음

공개 벤치마크도 없는 것 아닌가?

신뢰할 만한 벤치마크가 없다면, 이들이 Mythos와 비슷한 건 텍스트를 입력받아 텍스트를 출력한다는 의미뿐임

이제 벤치마크는 거의 안 봄
새 모델이 나오면 우리 대규모 독점 시스템 소프트웨어 코드베이스와 실제 출시 제품, 또는 언젠가 출시될 프로젝트에 직접 써봄
어떤 모델이 일을 더 잘하거나 빠르게 해주는지는 꽤 명확하고, 지금은 필요한 만큼 쓸 수 있는 토큰 예산이 있어서 운이 좋은 편임
벤치마크, 평가, 마케팅, 시스템 카드 같은 건 필요 없고, 웹에서는 팁과 실무 방식, 출시 소식만 읽음
동료들과 경험은 공유하지만 그 외는 전부 잡음임

Mythos처럼 과대홍보됐다면 “Mythos-like” 목록에 그것도 추가할 수 있음
아마 빠진 건 CEO가 “우리 모델은 인터넷에 공개하기엔 너무 위험하니, 너무 늦기 전에 누군가 막아야 한다”고 세상에 경고하는 장면일 듯함

이 회사들이 이전에 모델을 낸 적이 있나?
갑자기 Mythos급 모델을 냈다고 믿기 어려움
DeepSeek, Z.ai, Alibaba/Qwen은 훨씬 오래 해왔고 지난 18개월 동안 성능을 꾸준히 끌어올린 모델들을 내왔음
아무 이전 출시 없이 새 회사들이 갑자기 Mythos급 모델을 내놓았다는 건 믿기 힘듦

올해가 끝나기 전에 “안전 우려”를 이유로 외국산 LLM 금지가 나올 것 같음
실제 성능과는 상관없을 것임
하지만 Anthropic이 Mythos류 시스템의 기준선을 만들어놨고, 그 느슨하게 정의된 기준에 맞는 건 대중에게 위험하다고 취급될 듯함

실제로는 어떻게 작동할 수 있음?

그렇다면 미국 기술은 안녕이고 중국을 환영하게 될 듯함
아무도 기다리지 않을 것이고, 이미 나온 지니를 병에 다시 넣을 수는 없음

모델이 발전해도 실제 위험이 없다는 듯이 말하는 건 말도 안 됨
지금 시점에서 똑똑한 말을 하는 건 Claude뿐인 것 같은 다른 현실에 사는 느낌임
사람이 쓴 글은 거의 다 환각과 보여주기식 헛소리처럼 보임

냉소적으로 보면, 모델이 괜찮기만 해도 Mythos급이라는 주장을 반박하기 어려움
이제 Mythos를 사용할 수 없기 때문임

Mythos 같은 게 뭔가?
접근 권한이 없었던 사람으로서 궁금함

첫인상은 “제3자 벤치마크 없으면 꺼져라”임
개인적으로 이 두 회사 모두 들어본 적이 없음
시장 최고 모델들과 맞먹는다는 말을 그냥 믿으라는 건가?
Sakana는 자기 모델을 “Orchestration Model”이라고 설명하는데, 그럼 실제로는 여러 모델을 이어 붙인 것이라는 뜻인가?

좋은 모델을 만드는 게 실제로 그렇게 어려운가, 아니면 학습에 투입할 자원 규모가 핵심인가?
정말 몰라서 묻는 것임
물론 사소한 일은 아니겠지만, 알려진 기존 기법 위에 만드는 데 세계 최고 수준의 비밀 지식이 필요한가?
아직 탐색할 낮게 매달린 과일이 많고, 시간과 자원이 제한 요인인 느낌임

최근 HN에 올라온 릴리스 글의 댓글들은 실제 모델이라기보다 OpenRouter와 비슷하다고 보는 분위기였음

여기 많은 댓글처럼 나도 Fugu와 몇몇 다른 모델을 테스트했는데, 꽤 비싼 모델들이었음
$20으로는 전체 워크플로를 끝내기 부족했고, Opus에서는 가능했음
물론 Opus도 최고의 결과를 원하면 처음부터 프롬프트를 더 다듬어야 할 수 있지만, 지금까지는 그런 경험임
다음 테스트는 에이전트형 시스템으로 해보고 성능을 볼 예정임

아시아 AI 스타트업들, Anthropic Mythos 대체 모델 출시

요약

핵심 포인트

댓글