실제 웹 취약점 탐지를 위한 LLM 평가
요약
본 연구는 다양한 프런티어 및 오픈 웨이트 모델을 활용하여 WordPress 플러그인의 실제 웹 취약점 탐지 능력을 벤치마킹합니다. 실험 결과, 모델과 프롬프트 설계에 따라 탐지율 차이가 크며, 모든 모델이 일관된 보고 능력을 보여주지는 못한다는 한계를 확인했습니다.
핵심 포인트
- Claude Opus 4.6이 63%로 가장 높은 웹 취약점 탐지율 기록
- 오픈 웨이트 모델 MiniMax M2.5가 프런티어 모델과 대등한 성능(48%) 달성
- 범위 지정 프롬프트(scoped prompts)가 개방형 프롬프트보다 효과적임
- 실험 반복 시 모델의 보고 일관성이 낮아 보안 도구로서의 한계 존재
대규모 언어 모델 (LLMs)은 자동화된 취약점 탐지를 위한 유망한 도구로 부상했지만, 웹 특화 취약점에 대한 이들의 효과는 여전히 탐구되어야 할 과제로 남아 있습니다. 본 연구는 SQL 인젝션 (SQL injection), 저장형 교차 사이트 스크립팅 (stored cross-site scripting), 경로 탐색 (path traversal), 원격 코드 실행 (remote code execution)을 포함하여 WordPress 플러그인의 정적 분석 (static analysis)을 사용하여 실제 웹 취약점을 탐지하는 능력에 대해 6개의 프런티어 모델 (Claude Opus 4.6, Codex GPT-5.4, Gemini 3.1-pro-preview) 및 오픈 웨이트 (open-weight) 모델 (Qwen 3.5, Qwen 3 Coder Next, MiniMax M2.5)을 벤치마킹합니다. 세 번의 실험 반복에 걸쳐 구조, 범위 및 복잡성이 다양한 다섯 가지 프롬프트 설계를 사용하여, 모델 및 프롬프트 선택이 취약점 탐지에 어떤 영향을 미치는지 답하는 것을 목표로 합니다. 연구 결과, 모든 모델이 유효한 보안 문제를 탐지할 수 있는 능력을 갖추고 있으나, 탐지율은 모델과 프롬프트에 따라 차이가 있는 것으로 나타났습니다. 예를 들어, Claude Opus 4.6은 가장 높은 웹 취약점 탐지율(63%)을 달성한 반면, 오픈 웨이트 모델인 MiniMax M2.5는 다른 프런티어 모델들과 대등한 성능(48%)을 보였고, 셀프 호스팅된 Qwen 3.5는 35%만을 달성했습니다. 우리는 취약점 범위를 좁히는 범위 지정 프롬프트 (scoped prompts)가 개방형 프롬프트 (open-ended prompts)보다 성능이 뛰어난 반면, 프롬프트 복잡성은 거의 영향을 미치지 않음을 보여줍니다. 놀랍게도, 세 번의 실험 반복 동안 완전한 보고 일관성 (reporting consistency)을 달성한 모델은 없었으며, 일부는 50%만큼 낮았습니다. 우리의 실험은 어떤 모델도 플러그인 중 하나에 있는 하나의 베이스라인 취약점을 정확히 식별하지 못했다는 점에서, LLM 기반 취약점 탐지의 기회와 한계를 입증합니다. 또한, 보안 실무자를 위한 실질적인 교훈을 도출하였으며, 향후 연구를 지원하기 위해 모든 코드와 데이터를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기