작고 저렴한 오픈 웨이트 모델이 Anthropic 의 취약점 분석을 재현
요약
작고 저렴한 오픈 웨이트 언어 모델들을 사용하여 Anthropic이 강조했던 특정 취약점 분석을 재현한 결과, 대부분의 모델들이 일관되게 동일한 보안 취약점을 감지하는 것으로 나타났습니다. 특히 36억 개의 활성 파라미터를 가진 소형 모델도 플래그십 FreeBSD 악용 사례를 성공적으로 식별했으며, 51억 개 규모의 오픈 소스 모델은 오래된 OpenBSD 버그의 핵심 악용 연쇄를 복원하는 등 높은 성능을 보였습니다.
핵심 포인트
- 소형/저렴한 오픈 웨이트 LLM도 주요 보안 취약점 분석에 효과적임을 입증했습니다.
- 모델의 크기나 비용과 관계없이, 여러 모델들이 일관되게 동일한 보안 패턴을 감지하는 경향을 보였습니다.
- 36억 개 파라미터급 소형 모델이 플래그십 OS(FreeBSD) 악용 사례를 성공적으로 식별했습니다.
- 오픈 소스 LLM은 오래되고 복잡한 시스템의 핵심 보안 취약점 연쇄까지 재현할 수 있는 능력을 갖추고 있습니다.
하지만 우리가 테스트했을 때 발견한 것은 다음과 같습니다: 우리는 Anthropic 이 발표에서 강조한 구체적인 취약점들을 가져와 관련 코드를 분리한 뒤, 작고 저렴한 오픈 웨이트 모델들을 통해 실행했습니다. 그 모델들은 대부분 동일한 분석 결과를 도출했습니다. 8 개 모델 중 8 개가 Mythos 의 플래그십 FreeBSD 악용 사례를 감지했으며, 이 중 하나는 활성 파라미터가 36 억개 (3.6 billion) 에 불과하고 토큰 100 만 개당 비용이 $0.11 인 모델이었습니다. 또한 51 억개 (5.1B) 활성 파라미터를 가진 오픈 소스 모델은 27 년 된 OpenBSD 버그의 핵심 악용 연쇄를 복원했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @Thom_Wolf (HuggingFace 공동창립자)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기