Mythos를 하루 종일 사용해 본 후의 소감

요약

Anthropic의 보안 연구 특화 모델인 Mythos를 사용한 후기입니다. 높은 비용과 제한적인 하네스 환경에도 불구하고, 보안 취약점 탐지 및 보안 연구 작업에서 기존 모델을 압도하는 성능을 보여줍니다.

핵심 포인트

보안 연구 작업에 미세 조정된 듯한 탁월한 성능
기업용 기준 매우 높은 API 비용 발생
샌드박싱을 위한 하네스(harness) 시스템 제공
실제 제품에서 약 800개의 주요 보안 취약점 발견

약속드린 대로, Mythos와 하루 종일 시간을 보낸 후의 제 생각을 공유합니다. Anthropic이 저를 엄청나게 고소하지 않기를 간절히 바라지만, 인생 뭐 있나요(yolo). 미리 경고하자면, 내용이 좀 깁니다.

비용 (The Cost)

Mythos의 가격 책정은, 적어도 저희 기업용(enterprise) 기준으로는 어... 비쌌습니다. 파일럿 기업(pilot company)이 되면 무료로 체험하게 해줄 줄 알았는데, 아니더라고요. 적어도 API를 통해 상당한 양의 무료 토큰(free tokens)을 제공해주긴 했지만, 비용 추정치를 보니 저희가 여기에 100만 달러 이상을 쓰게 될 것 같았습니다. 비교하자면, 저희 회사는 지난달 한 달 동안 전 직원을 위한 추론(inference) 비용으로 200만 달러를 썼습니다. 그러니 네, 정말 겁나게 비쌉니다.

하네스 (The harness)

저에게 가장 놀라웠던 점은 그들이 실제로 Claude Code가 아닌 하네스(harness)를 보내주었다는 것입니다. 약간 초라하고, 제 눈에는 대부분 AI가 생성한 것처럼 보입니다. 대부분의 기능은 Mythos가 "격리(containment)"를 벗어나지 않도록 보장하는 것과 몇몇 형편없는 보안 기술에 집중되어 있었습니다. 따라서 그들이 샌드박싱(sandboxing)을 확실히 진지하게 다루고 있다는 점은 분명합니다. 제 생각에 이 하네스는 꽤 형편없고/제한적입니다. 가드레일(guard rails)의 절반은 작동하지도 않고요. 그리고 이게 기본적으로 "Project Glasswing"의 실체라니, 하네스가 형편없다는 점을 고려하면 꽤 웃기네요. 이 하네스가 모델 API가 출시될 때 함께 출시될지는 잘 모르겠습니다. 원래 그것이 계약의 일부인 것처럼 보였거든요. 출시되었을 때 그들이 무엇을 할지, 그리고 어떻게 개방될지 매우 궁금합니다.

저는 하네스 외부에서도 Mythos를 사용할 수 있었습니다(참고로 OMP 방식임)... 이에 대해서는 잠시 후에 더 자세히 말씀드리겠지만, 그들이 사람들이 이렇게 하는 것을 정말 원치 않기 때문에(적어도 제가 들은 바로는) 약간의 해킹(hack)이 필요했습니다.

모델 (the model)

아마 모두가 가장 관심 있어 할 부분일 것입니다. 말씀드리자면, 모델은 좋습니다. 비싸냐고요? 네, 존나 비쌉니다. 하지만 좋습니다. 저에게는 이러한 종류의 보안 연구(security research) 작업에 명시적으로 미세 조정(fine-tuned)된 것처럼 느껴집니다. 제가 많이 다뤄보지는 못했지만 일반적인 코딩(general coding) 측면에서는 그렇게 놀랍지 않았습니다. 하지만 보안 기반 작업에는 확실히 매우 뛰어납니다. Opus / 5.5 xhigh보다 훨씬 낫습니다.

그렇긴 하지만, 이것이 사회에 어디에나 존재하는 위험이나 위협이라고는 느껴지지 않습니다. 실제로 이 모델이 우리의 빌드 도구 (build tool)를 사용하려다 혼란스러워하는 모습을 지켜보았는데, 결국 제가 직접 코드를 빌드한 다음 전체 빌드에 대해 모델을 실행해야 할 정도였습니다. 어디에나 존재하는 모델이라면 이 정도는 할 수 있을 것이라 생각하겠지만, 시장에 나온 그 어떤 모델도 이를 해결하지 못했습니다. 그리고 그것은 단지 우리가 만든 약간의 커스텀 요소가 포함된 Bazel일 뿐입니다. 전혀 대단한 것이 아닙니다.

그렇긴 해도, 만약 사람들이 엄청난 돈과 광범위한 하네스 (harness) 지식을 가지고 있다면, 네, 아마도 그것을 이용해 어떤 악의적인 짓을 할 수는 있을 것입니다. 하지만 오직 진정으로 숙련된 엔지니어/보안 연구자 (security researcher)만이 가능할 것입니다.

결과

Mythos는 우리의 몇몇 제품들(아마 이 앱의 모든 사용자가 간접적으로, 혹은 소수는 직접적으로 접해봤을 법한 제품들)에서 꽤 많은 취약점 (vulnerabilities)을 찾아낼 수 있었습니다. 최종 합계는 약 800개의 주요 위협 (major threats) 정도였던 것 같습니다. 보안 전략 (security strategy)의 일부를 재고하기에는 확실히 충분한 양입니다.

최종 생각

이것은 좋은 모델입니다. Anthropic이 당신이 믿게끔 유도하는 것처럼 인류에 대한 실존적 위협 (existential threat)은 아니지만, 진정으로 훌륭합니다. 비용 측면에서는 5.5 xhigh와 비교를 해보고 싶지만, 아쉽게도 제대로 된 비교를 위해 쏟아부을 백만 달러는 제게 없습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Mythos를 하루 종일 사용해 본 후의 소감

요약

핵심 포인트

댓글