GLM 5.2, Semgrep IDOR 벤치마크에서 Claude 앞서

Fable과 GPT 5.6 소동 이후 오픈 모델들을 다시 봤는데, GLM-5.2는 일상적인 프로그래밍에 정말 좋은 실무형 모델임
LLM을 많이 쓰는 숙련 개발자 입장에서 GPT 세션 하나가 보통 100달러를 넘는데, 이번 주말에는 암호화를 넣은 Matrix 봇과 도구 몇 개를 갖춘 Rust 에이전트를 만들었고, 이틀 뒤 20달러를 쓰고 나니 홈랩에 접근 가능한 멀티모달 Rust 에이전트가 완성됨
GLM은 어색한 느낌이 없었고, 원하는 일을 잘 처리했으며 빠르고 성격도 크게 거슬리지 않았고 Opus나 GPT보다 훨씬 저렴했음. Fireworks에서 양자화되지 않은 버전으로 썼고 다른 제공자도 여럿 있음

GLM 5.2는 훌륭하지만, “가장 좋은 모델만 쓰겠다”면 아직 그 위치는 아님
모든 연구소가 의도적으로든 아니든 벤치마크 답을 외운 모델을 내놓는데, 중국 연구소 모델들은 공개 벤치마크와 자체 평가 사이의 격차가 더 큰 편이었고, 자체 평가는 벤치마크 최적화에 덜 취약하게 설계했음
다중 에이전트 코딩 환경에서는 GLM 5.2가 평균적으로 Opus 4.6에 살짝 못 미침. 데이터는 https://gertlabs.com/rankings에 있음
다만 성능 대비 비용까지 보면 GLM 5.2가 최전선 모델임

왜 API 요금을 내는지 정말 궁금함. Claude 사용량 기준으로는 한 달에 API를 수천 달러어치 쓰지만 실제로는 100달러 구독료만 내고 있음

Matrix를 쓴다면 아직 안 써봤으면 Hermes를 하네스로 고려해볼 만함. 네이티브 게이트웨이 지원이 있고, 주로 Element를 통해 써왔는데 대체로 훌륭했음

Fireworks가 정말 비양자화인지 확실함? OpenRouter에는 다른 곳들처럼 정밀도가 표시되지 않음

20달러가 API 요금인지 구독료인지 궁금함

GLM 5.2가 나왔을 때 보안 버그 탐색 벤치마크에 추가했는데 성능은 좋았지만 최고의 오픈 모델은 아니었음
이 벤치마크는 모델이 Mythos가 찾은 버그를 찾을 수 있는지 테스트함. 초기 결과에서 최고의 오픈 모델은 DeepSeek V4 Pro 또는 MiMo 2.5 Pro였지만, MiMo는 운이 좋았던 것으로 보이고 이후 거의 모든 테스트에서 더 나빴음. 반면 DeepSeek는 꾸준히 상위권이었고, 극단적인 캐싱 성능 덕분에 훨씬 작은 모델을 포함해 거의 무엇보다 저렴함 https://swelljoe.com/post/will-it-mythos/
또 하나 흥미로운 점은, 오픈소스 semgrep을 도구로 제공하면 일부 모델은 더 나빠지고 아무 모델도 더 좋아지지 않았다는 것임. 모델이 semgrep을 직접 다루지 않아도 유용한 정보만 받도록 하네스를 잘 연결하는 방법은 있을 수 있음
내 추측으로는 semgrep이 학습 데이터에 많이 들어 있지 않아서, 모델에게 semgrep 사용법을 파악하는 일과 보안 버그를 찾는 일을 동시에 시키게 되고, 집중이 분산되어 둘 다 성능이 떨어짐. 대부분의 작은 모델과 일부 큰 모델은 이를 잘 못함
추가 테스트는 계속 중이고, GLM 5.2도 꾸준히 강한 성능을 낼 가능성이 높아 보임. 지금까지 테스트한 대부분에서 뛰어났음

Lenovo Legion 5i 노트북에서 돌려봤음. 대략 RAM 32GB, VRAM 8GB의 4060 구성임
1TB NVMe에도 그대로는 안 들어가서 가중치당 4비트인 UD_Q4_K_XL 양자화 모델을 썼고, 속도는 초당 토큰이 아니라 토큰당 약 12초였음. 재미있는 프로젝트였지만 쓸 가치는 없었음
llama.cpp가 메모리 매핑을 지원해서 컨텍스트 캐시 4096토큰으로 실행했고, 전체가 RAM에 들어갈 수 없으니 SSD에서 얼마나 스트리밍해야 하는지 궁금했음. 간단한 4문장짜리 자기소개를 생성하는 데 디스크에서 약 1.5TiB를 읽었음

RTX6000 8장이면 됨. 이 크기의 모델을 괜찮은 초당 토큰 수로 시작하려면 대략 8만~10만 달러가 듦
그래도 걱정할 필요는 없음. 오픈소스 전도사들은 3년 안에 이런 모델이 휴대폰에서 돌아갈 거라고 말해줄 테니까
10만 달러면 OpenRouter를 통해 이 모델을 50tps, 동시 세션 10개로 10년 동안 24시간 돌리고도 휴가 갈 돈이 남음. 이미 여러 직원의 개별 토큰 사용료를 내는 사업체가 아니라면 이런 돈을 로컬 모델에 투자할 이유는 없음

“취약점 하나를 찾는 데 약 0.17달러로 Claude Code(32%)를 이김”이라는 표현은 부정확함 Claude Code는 LLM이 아니라 에이전트 하네스이고, Claude는 하나의 LLM이 아니라 브랜드 또는 LLM 묶음임

다른 모델의 가격표가 없으면 그 달러 수치는 의미가 없음. 허술한 글임

글쓴이도 그 점은 충분히 알고 있을 것임. 그래도 이 작은 실수를 짚어줘서 고마움

세세한 트집을 잡지 않는 데 비용은 들지 않음

Claude Code는 Claude급 모델을 실행하는 실제 상각 비용에 접근할 수 있는 유일한 방법에 가까움
소비자용 비엔터프라이즈 API는 사용자 입장에서는 한계비용이 커지고 Anthropic 입장에서는 마진이 두꺼워 매우 비쌈. 국가급 공격자가 자체 하드웨어에서 모델을 돌리는 비용을 근사하려면 Claude Code가 상각 비용의 가장 좋은 추정치일 가능성이 큼

이 수치들은 특히 Windows 커널과 win32k↔win32u 쪽에서 내가 달성한 것에 비하면 꽤 낮아 보임
이제는 중국이 사이버 같은 특정 범주에서 미국이 공개하는 모델을 앞서기 시작해도 놀랍지 않을 것 같음
GLM 5.2는 이미 자기 훈련을 보조할 만큼 충분히 강력하고, 이는 최전선 모델에서 보았던 흐름과 비슷함. 게다가 OpenAI나 Anthropic보다 훨씬 낮은 비용으로 거기에 도달하는 듯함

Trump가 미국 “동맹국”에게 허용할 모델은 거의 확실히 추월할 것임. 그는 동맹을 사실상 종속국으로 보는 듯함
여기에 중국의 태양광, 충전식 배터리, 전기차 지배력 확대까지 합쳐지면, 2차대전 이후 경제 질서에 결정타가 될 수 있음

Opus도 GLM에 사용한 것과 같은 Pydantic 하네스로 최소한 돌려봐야 함. 지금 상태로는 사과와 배를 비교하는 셈임
GLM 말고 다른 모든 모델의 취약점당 비용은 어디에 있음?
코드가 없으면 신뢰하기도 어려움. 전부 지어낸 것일 수도 있음

GLM 수출통제가 곧 올까? 몇 달 안에 Commerce가 OpenRouter와 HuggingFace에 일부 오픈 모델을 내리라고 강제할 것으로 예상함
말이 되지는 않겠지만

그렇게 되면 완전한 재앙이 됨. Anthropic과 OpenAI가 안전을 이유로 최신 모델을 대부분의 미국 회사가 쓰지 못하게 막는 동안, 공격자들은 동급의 오픈소스 모델로 미국 회사를 공격하는 상황을 상상해보면 됨
오픈소스 모델 금지는 문제 해결에 아무 도움이 안 됨. 공격자는 법에 묶였다고 느끼지 않기 때문임. 방어 목적을 위해서는 모든 고급 모델이 접근 가능해야 함

미국은 미국 내에서 중국 모델 사용을 금지할 수는 있을 것임. 하지만 중국 자동차 금지처럼, 나머지 세계는 그냥 사용할 것임

원한다고 해도 이를 가능하게 할 법적 근거를 찾기 어려울 것 같음
정부는 (a) 미국 상품·서비스의 수출을 막고, (b) 물리적 상품의 수입을 금지하고, (c) 외국 기업과의 거래, 서비스 구매나 라이선스 계약을 포함한 거래를 금지할 권한은 있음
하지만 미국 기업이 공급사와 독립적인 관계이고, 정부 계약이나 규제 대상 애플리케이션에 쓰는 것도 아니라면, 미국 내에서 중국이 개발한 오픈소스 AI 모델을 실행하는 행위 자체를 금지할 법적 권한은 잘 모르겠음
HuggingFace 등에 중국 계정을 정지하라고 명령할 가능성은 있음. 하지만 미국이나 제3국의 누군가가 중국에서 모델을 다운로드한 뒤, 공급사와 완전히 독립적으로 미국 서버에 다시 올린다면 그걸 금지할 법적 연결고리가 어디에 있는지 의문임

중국산 모델에 미국이 수출 제한을 건다는 뜻임?

앞으로 최첨단 AI는 방위산업 전용이 될 것 같음. 우리는 장난감 드론은 가질 수 있어도 Predator와 Reaper는 못 가지는 식임

Neuralwatt를 통해 GLM 5.2를 쓰는데 너무 싸져서, 회사가 Claude 구독을 제공해준다면 개인 Claude 구독은 취소해도 괜찮을 것 같음
이번 달에 3억 7400만 토큰을 썼는데 에너지 기반 가격제로 18달러밖에 안 들었음

광고처럼 읽힘
둘째로, 이것들은 “그냥” IDOR이고 취약점 종류 중에서도 가장 쉬운 축에 속함
셋째로 GPT 5.5와 Opus 4.8에 비교하고 있음
아니, 우리 집에는 Mythos가 없음

Mythos는 모든 벤치마크에서 GPT 5.5보다 10% 미만 앞서는데, Opus보다 몇 배나 큰 덕분에 얻은 차이임
경제적으로 제공 가능했다면 효과적 이타주의 광대들이 벌인 마케팅 서커스 대신 첫날부터 공개됐을 것임. 10% 미만 더 나은 모델의 추론 비용이 1000% 넘게 든다는 점을 인정하면 매우 치명적이었을 테니까

내 경험상 GLM 5.2는 취약점을 찾는 데 매우 뛰어나고, 더 중요하게는 Opus와 달리 명령을 거부하는 걸 본 적이 없음
취약점을 찾고 고치는 데 진짜 강력한 모델임

그래도 여전히 유용함. 요즘식으로 바꿔 말하면 GLM 5.2는 오늘 우리와 같은 방 안에 있지만, Mythos는 없음
EU에 있는 입장에서는 더 복잡함. Mythos가 언젠가 방 안에 들어왔다가도 우리가 전혀 통제할 수 없는 정치적 주체의 변덕으로 갑자기 사라질 수 있음
접근 가능하고 로컬에서 돌릴 수 있는 오픈 모델이 어디까지 왔는지 아는 건 중요함. 뒤처져 있다는 건 알고 있음. 하지만 “충분히 좋음”이 유용해지는 시점이 옴. 오늘은 “그냥 IDOR”이고 최신 수준보다 뒤처져 있더라도 마찬가지임
위에서 누군가 말했듯 GLM 5.2와 Kimi, DeepSeek V4 같은 같은 급의 모델들은 자동화된 저장소 준비 작업, 즉 다운로드·설치·테스트·수정·재테스트를 보조하기에 점점 충분해지고 있음. 이는 다음 세대 학습에 쓸 수 있는 실사용 추적 데이터로 이어짐. 벤치마크에서 몇 퍼센트 뒤지는지보다 그게 더 중요할 수 있음

엄밀히 말하면 우리에게 Mythos는 아예 없는 것 아닌가? 그쪽만 접근권이 있음. 이건 우리에게 집에서 쓰는 Opus, 즉 오픈 가중치가 있다는 뜻으로 보임

자기들 기준이 좁고 주로 자기들의 특정 사용 사례에 중요하다고 노골적으로 말하고 있음. 그래도 합리성이 쇠스랑을 내려놓게 만들면 안 되겠지!

GLM 5.2, Semgrep IDOR 벤치마크에서 Claude 앞서

요약

핵심 포인트

댓글