r/LocalLLaMA분석2026. 06. 24. 04:13

OpenMythos 벤치마크 결과

요약

사이버 보안에 특화된 소형 모델인 OpenMythos의 벤치마크 결과가 공개되었습니다. SWE-bench Pro, CyberGym, cybench 등 다양한 테스트를 통해 모델의 성능을 검증하였으며, 향후 추가 학습을 통해 성능을 개선할 계획입니다.

핵심 포인트

OpenMythos는 사이버 보안 특화 소형 모델임
SWE-bench Pro, CyberGym, cybench 결과 포함
Qwen 모델의 벤치마크 수치 불일치 이슈 언급
모델 성능 향상을 위한 추가 학습 예정

여러분 안녕하세요! OpenMythos 벤치마크가 드디어 나왔습니다. 게시하는 데 약 일주일 정도 걸려 죄송합니다.

지연된 주된 이유는 SWE-bench 결과가 Qwen 3.6 27B의 공식 수치와 일치하지 않았기 때문입니다. 확인 결과, Qwen은 다른 평가 하네스 (eval harness)를 사용했으며 벤치마크 문제들을 정제/필터링했습니다. 심지어 이전 3.5 버전(SWE Verified에서 72.4)의 벤치마크 점수조차 3.6에서 발표된 수치(SWE Verified에서 75)와 일치하지 않습니다.
https://preview.redd.it/n1hoj90rw29h1.png?width=1351&format=png&auto=webp&s=fb03ba37f908b8b5cc1c170434084dc47cd3ced9

어쨌든, 여기 SWE-bench Pro, CyberGym, 그리고 cybench의 결과가 있습니다.
OpenMythos는 사이버 보안에 특화된 소형 모델로서 꽤 잘 버텨주고 있습니다! 하지만 더 잘할 수 있는 능력이 있습니다. 그래서 추가 학습을 진행할 예정입니다.

또한 u/giveen에게도 큰 감사를 전합니다.

GGUF 버전: https://huggingface.co/jabbatheduck/OpenMythos-GGUF
데모 (Demo): https://huggingface.co/spaces/build-small-hackathon/OpenMythos
모델 (Model): https://huggingface.co/build-small-hackathon/OpenMythos

제출자: /u/RealKingNish

AI 자동 생성 콘텐츠

원문 바로가기

OpenMythos 벤치마크 결과

요약

핵심 포인트

댓글